语音识别两条路:
传统方法:GMM+HMM,DNN+HMM,kaldi工具实现
神经网络:CTC(Connectionist Temporal Classification)框架(deepspeech2, 科大讯飞DFCNN),注意力机制的 seq2seq 框架(谷歌的LAS)
俞栋所说:“只有当新模型比旧模型好很多的时候,替换才会发生。当然,这里的好是多方面的,不单单是识别率好,也可能是在其他指标不变的情况下你的运算量小了,或者是解码速度提升了。”
CTC 的好处是可以采用更大的建模单元,坏处是存在一个随机延迟的问题,即结果出来的时间不是预先可知的。随机延迟的后果是断句困难,这会给用户造成一种「你怎么比别人慢」的感觉。
语音助手类,大部分仍然在使用混合系统。而对实时性没有要求的产品,比如 YouTube 的字幕生成器,因为可以离线,所以有延时也没有关系。
语音研究方向:
前端:主要围绕在家居和车载环境所必须的麦克风阵列、降噪、去回声、去混响、唤醒等功能
声学模型:主要关注如何将声学信号建模
语言模型:语言文字本身建模
CTC:
注意力机制: