1. 总览:
传统的模型为语言模型+声学模型,语言模型表示词之间的相互关系,声学模型表示音素和语音波形信号的对应,由于语音信号的多变性(长度,音调等变化),用GMM+HMM模型。
深度学习
2. 相关公司和研究机构:
中国语音产业江湖和科大讯飞的前半生:https://www.sohu.com/a/292491389_753232
达摩院语音实验室:https://yq.aliyun.com/teams/17?spm=a2c4e.11153940.0.0.545750dewgHF3X
百度: CTC,Attention,SMLTA(流式截断的多层注意力建模)
Google:
俞栋,邓力领导的微软研究院:《解析深度学习:语音识别实践》
思必驰:
出门问问:
云知声:
声智科技:主要是语音信号处理,包括降噪,语音增强,麦克风阵列
科大讯飞:
CMU的李开复,黄学东,黄美玉等人的CMU SPHINX
Hinton TDNN