语音识别
语音识别的意思是将人说话的内容和意思转换为计算机可读的输入。语音识别的目的就是让机器听懂人类口述的语言,包括了两方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会,做出正确回应,而不仅仅只是拘泥于所有词汇的正确转换。
语音识别系统的分类
从说话者与识别系统的相关性考虑:
- 特定人语音识别系统
- 非特定人语音系统
- 多人的识别系统
从说话的方式考虑:
- 孤立词语音识别系统
- 连接词语音识别系统
- 连续语音识别系统
从识别系统的词汇量大小考虑:
- 小词汇量语音识别系统
- 中等词汇量的语音识别系统
- 大词汇量语音识别系统
语音识别的方法
目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。
动态时间规整算法
动态时间规整算法(Dynamic TIme Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时ÿ