语音识别和说话人识别-短暂的邂逅
本文主要总结了学习语音识别的一段经历...
一 初识
上研究生的时候,那时主攻的方向是低码率语音编码技术,但是已经听说语音识别是一个非常了不起的技术,可以想象,如果可以和机器进行无障碍的对话将是一个多么令人兴奋的事情。当时只是埋下了种子,简单的了解了一些名词解释和对Rabiner、李开复与CMU(卡内基梅隆)的钦佩。
二 学习
工作了一段时间,公司对语音编码好像可以做的都做了,于是计划将来的发展方向是语音识别,这下确实让我激动了好一阵,主动请求参与这个计划并担当主要开发人员。接下来就是在网上疯狂搜索语音识别相关的学习资料,包括书籍、论文以及源代码。在短短的几天后,明确了我们开发语音识别的方向是非特定人、小词汇量、孤立词的语音识别。毕竟我们基本上是从零开始,许多概念需要理解,许多算法需要明白,许多经验也需要积累。
首先,我们选择了HTK开发工具,这是剑桥提供的一套可以参考学习的语音识别工具。我们选择HTk主要是为了学习语音识别的基本原理和流程。HTk提供的学习资料和源代码还是非常不错的。花了三个月时间,我们学习了基本概念和开发流程,对特征提取、模型匹配、隐马尔科夫模型进行了实验,尤其是隐马尔科夫(HMM)的球与缸(ball and urn)实验很清楚的解释了HMM的概念。接下来的三个月,我们基于自己的嵌入式平台应用,开发了一个用于玩具中的小词汇量,非特定人的、孤立词识别应用方案以及配套的工具,处理语料库是一项非常耗时的工作。
三 应用
接下来,我们也找来几家第三方语音识别方案进行比较,从中我们知道了什么叫做技术积累和工程应用,在综合