语言是人类创造的,是人类区别于其他地球生命的本质特征之一。语音是语言最本质、最自然、最直接的表现形式或载体,其表现形式为声波—一种由空气分子振动而形成的机械波。人类用语言交流的过程可以看成是一个复杂的通信过程,为了获取便于分析和处理的语音信源,必须将在空气中传播的声波转变为包含语音信息并且记载着声波物理性质的模拟(或数字)电信号,即语音信号,因而语音信号就成为语音的表现形式或载体。
语音识别的研究工作大约开始于上个世纪50年代。1952年贝尔实验室首次研制成功能识别10个英语数字的孤立词语音识别系统——Audry系统。20世纪60年代中期,一系列数字信号处理方法和技术成为语音信号数字处理的理论和技术基础。在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。
20世纪70年代,有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响:70年代初,日本人板仓提出动态时间伸缩算法(DTW),使语音识别研究在匹配算法方面开辟了新思路;70年代中期,线性预测技术(LPC)被用于语音信号处理,隐马尔可夫模型(HMM,Hidden Markov Model)法也获得初步成功,该技术后来在语音信号处理的多个方面获得巨大成功;70年代末,Linda,Buzo,Gray和Markel等人首次解决了矢量量化(VQ)码书生成的方法,并首先成功得将矢量量化技术用于语音编码。从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许多领域。
80年代,语音识别研究进一步走向深入,首先是声学建模的方式由基于模板的方法全面向统计建