2019年1月

语音识别两条路:

传统方法:GMM+HMM,DNN+HMM,kaldi工具实现

神经网络:CTC(Connectionist Temporal Classification)框架(deepspeech2科大讯飞DFCNN),注意力机制的 seq2seq 框架(谷歌的LAS)

俞栋所说:“只有当新模型比旧模型好很多的时候,替换才会发生。当然,这里的好是多方面的,不单单是识别率好,也可能是在其他指标不变的情况下你的运算量小了,或者是解码速度提升了。”

CTC 的好处是可以采用更大的建模单元,坏处是存在一个随机延迟的问题,即结果出来的时间不是预先可知的。随机延迟的后果是断句困难,这会给用户造成一种「你怎么比别人慢」的感觉。

语音助手类,大部分仍然在使用混合系统。而对实时性没有要求的产品,比如 YouTube 的字幕生成器,因为可以离线,所以有延时也没有关系。

语音研究方向:

    前端:主要围绕在家居和车载环境所必须的麦克风阵列、降噪、去回声、去混响、唤醒等功能

    声学模型:主要关注如何将声学信号建模

    语言模型:语言文字本身建模

CTC:

 

注意力机制:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值