国内外语音识别技术发展现状探讨

最新推荐文章于 2023-03-24 16:29:29 发布

编程大乐趣

最新推荐文章于 2023-03-24 16:29:29 发布

阅读量8.6k

点赞数 9

本文探讨了语音识别技术的发展历程，从特定人到非特定人的系统分类，以及孤立词到连续语音的不同方式。主要方法包括动态时间规整（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）和人工神经网络（ANN）。文中提到了国外的研究进展，如1950年代的Audry系统，以及后来的Sphinx系统，该系统实现了大词汇量、连续语音和非特定人的识别里程碑。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音识别的意思是将人说话的内容和意思转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。与说话人的识别不同，后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言，包括了两方面的含义：第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会，做出正确回应，而不仅仅只是拘泥于所有词汇的正确转换。本文引用地址：http://www.eepw.com.cn/article/201610/311278.htm

自从1952年，AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年，美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统，该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年，Fry和Denes等人尝试构建音素器来4个元音和9个辅音，并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代，苏联的MaTIn等提出了语音结束点的端点检测，使语音识别水平明显上升;Vintsyuk提出了动态编程，这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术，有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚，取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式，它正逐步成为信息技术中人机接口的关键技术。

一：语音识别技术发展现状-语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为三类：</