端到端语音识别（一）概况

最新推荐文章于 2024-08-05 11:02:14 发布

xmdxcsj

最新推荐文章于 2024-08-05 11:02:14 发布

阅读量9.7k

点赞数 1

分类专栏：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xmdxcsj/article/details/70300546

版权

语音识别专栏收录该内容

10 篇文章 8 订阅

订阅专栏

传统方法的局限性[1]

HMM

Markovian Assumption

$p(q_t|q_{<t})=p(q_t|q_{t-1})$
转移概率只跟前一个时刻有关，无法对长时依赖性建模。

Conditional Independence Assumption

$p(x_t|x_{<t}, q_{\leq t})=p(x_t|q_t)$
帧的生成概率只跟当前状态有关，跟历史状态和历史帧无关。

DNN

alignment

DNN的声学模型用来求输出状态对应的后验概率。需要用到GMM的对齐结果，来获得每一帧的label。首先需要GMM的对齐结果比较准确，其次是本身语音的边界不好界定，这样每一帧给一个指定label本身值得商榷。

Conditional Independence Assumption

和HMM类似，有独立性的假设。

Dict

词典和音素本身是handcrafted的

End to End实现方法[2]

end to end的语音识别主要有两种方法来实现

基于CTC的训练准则
CTC训练准则的引入抛弃了传统的HMM框架，输出的粒度可以到phone/charactor/word等。但是仍然有输出独立性的假设，使用的时候对于语言模型的依赖性比较强。
基于sequence to sequence和attention
虽然这种方式可以学习到word之间的关系，但是毕竟训练语料的transcription有限，所以额外的语言模型使用还是比较有必要。

end to end的语音识别框架在一定程度上减少了传统方法不合实际的假设，但是也存在训练困难的问题，为了取得比较好的效果，需要的训练语料也更多；而基于传统的DNN-HMM hybrid系统的方法可以得到更稳定的性能。

Reference

[1].End-to-End Speech Recognition Models
[2].Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin

后面的技术分享转移到微信公众号上面更新了，【欢迎扫码关注交流】

在这里插入图片描述

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。