小词汇量的语音识别

最新推荐文章于 2022-09-26 17:03:06 发布

小亚细亚

最新推荐文章于 2022-09-26 17:03:06 发布

阅读量6.8k

点赞数 5

分类专栏：机器学习文章标签：语音识别计算机应用

本文链接：https://blog.csdn.net/oyangyang/article/details/55667747

版权

本文探讨了小词汇量语音识别系统的现状、应用领域及其挑战。系统设计涉及语音信号处理、特征提取和抗噪技术，重点研究了MFCC特征参数的提取。采用HMM和改进的端点检测算法提高识别率和速度。实验结果显示，该系统在非特定人语音识别上的正确率超过90%。

摘要由CSDN通过智能技术生成

语音识别系统的发展现状

语言是人类之间交流的最基本、最重要、最有效和最方便的信息形式。语言信息传递最重要的媒介是语音，它承载着语言的特征信息这种人机交流方式，成为现在很多门学科研究领域的热门课题。人机语音交流的关键之处是语音识别，它作为计算机科技应用领域的研究热点，经过科研工作者们的多年努力，逐步从实验室的理论研究走向产品开发应用，并已在应用方面取得了很大进步。
在语言应用领域，通过计算机实现从语音语言到文本语言，再到语音语言的转换。例如，从语音语言到文本语言的产品，听写朗读机，语音文字笔，语音查询软件、语音专家知识库系统等；从语音到文本再到语音语言的产品，如多国语言翻译机。在安全应用领域，为保证某些场所或信息的安全，通过语音某些特征的唯一性，确认和识别身份的应用。例如，出入境身份确认，银行账户密码输入及操作等。但目前，无论从开发难度，还是应用前景来讲，小词汇量语音识别系统具有难度小、成本低、识别率高、应用广、实用性强等诸多优点，将具体应用在手机语音拨号、语控轮椅、语控玩具、路也被应用到语音识别的研究中。当今基于 HMM 和 NN 相结合的方法正得到广泛的重视。
小词汇量语音识别系统已逐渐开始在手持终端、家电等领域得到应用，但总的来说很多产品使用效果仍不尽如人意，如识别率低，识别速度慢等。为了使语音识别技术具有很好的实用性和得到更广泛的普及，除了提高硬件性能和降低硬件成本外，还必须要在算法上做更多的工作，使得识别速度和识别率能得到进一步提高。本文研究的目标是设计具有良好稳健性、识别率高、抗噪能力强的小词汇量语音识别系统。本文着重研究几个关键技术，如语音信号处理技术、语音信号特征提取技术、抗噪处理技术等。通过对这些技术的深入研究并应用到系统设计中，实现了小词汇量的语音识别系统。

相关工作：

     一个小词汇量的语音识别系统可大致分为2部分:(1)语音特征提取其目的是从语音波形中提取随时间变化的语音特征序列。(2)声学模型与模式匹配(识别算法)声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型(模式)进行匹配与比较,得到最佳的识别结果。
     本文所采用的语音特征是mfcc参数,mfcc 是Mel频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）的缩写，Mel（美尔）是主观音高的单位，而Hz（赫兹）则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。
     而获取mfcc时，端点检测是十分重要的，因为越精确的语音段检测会得到越精确的相关信息，本文介绍了一种基于能量检测和过零率检测的改进算法，即设置一个时间阈值，不是判断都一个时刻的能量和过零率而是判断这个时间阈值期间的能量和过零率是否满足要求。具体可以见后边的程序。
相比于其它语音特征它的优点有很多：
     语音信号是易受外界干扰的随机信号,在进行语音信号处理(语音编码、语音合成、语音识别)时,必须经过特征提取处理才能有效地降低信号的冗余度.对于语音识别系统而言,提取的特征参数应尽可能地反映人的声纹信息.语音特征参数有能量、基因频谱、共振峰值、短时过零率等,相比之下比较常