语音识别技术解析
一、基本知识
- 语音识别系统的基本框架:特征提取+模式匹配
- 解码:基于搜索的模式匹配过程(语音识别的模式匹配是一个序列匹配问题,一般表现为一个搜索过程)。
- 解码器:实现解码的模块。
- 解码时所用的两个信息源:
-
- 声学模型:描述每个音素如何发音。
-
- 语言模型:描述单词的组合规律。
- 语音识别系统的标准配置:
- 2010年前:
(1)特征:Mel倒谱系数(MFCC);
(2)声学模型:GMM-HMM;
(3)语言模型:N元文法(N-Gram);
(4)解码:有限状态转移机(Finite State Transducer, FST)。 - 今天:语音识别已经过渡到了深度学习阶段,识别系统的基础框架不变