语音识别技术的前世今生【前世篇】

最新推荐文章于 2023-07-18 09:25:53 发布

夜空骑士

最新推荐文章于 2023-07-18 09:25:53 发布

阅读量5.3k

点赞数 56

分类专栏：语音识别人工智能文章标签：语音识别 GMM HMM

本文链接：https://blog.csdn.net/NIeson2012/article/details/96862375

版权

本文介绍了语音识别技术的历史，从20世纪50年代的实验系统到现代的GMM和HMM模型。重点讲述了孤立词识别的过程，包括特征提取、动态弯算法、GMM和HMM的应用，以及EM训练算法。此外，还讨论了连续语音识别的挑战，如语言模型、大词汇量识别和评价指标WER。

摘要由CSDN通过智能技术生成

2.3 GMM(Gaussian mixture model)

2.4 HMM(Hidden markov model)

1.背景

在讲解每一个知识或者技术之前，我们通常先说到它的概念，当然语音识别技术也不例外。那么什么是语音识别呢，语音识别就是把语音转换成文字。科大讯飞的输入法就是一个典型的语音识别的例子，我们可以在不方便打字又不想让别人听到自己声音的时候，就可以使用这种方法，它可以把语音信号转化成文字。全球有很多种语言，怎么让不同语言的信号转换成其对应的文字呢。这就衍生了语音识别的一些相关课题。

元数据识别：就是无论说话人说的是中文还是外语，我都可以将它转换成对应的汉子或者外国文字，而且更加神奇的是，它还知道在一句话的什么地方该加标点符号，这都属于元数据的识别范畴；语音增强与分离：在很多语音中挣钱并分离出自己需要的语音信号，最典型的的例子就是鸡尾酒宴会，意思就是在这个宴会上会有很多声音音乐声，不同的人的说话声，这时我想从这些混杂的语音中提取小明的声音以及他说话的内容，这时我们就可以用到语音增强与分离技术，这个可以用SVD实现；语音合成与转换：语音合成是语音识别的逆过程，也就是说语音合成是把文字转化成语音信号；自然语言处理的应用场景也非常多，像Siri或者win10上的小娜都是基于NLP的。说完概念，接下来说一说语音识别的应用。

语音识别技术在我们生活中见得非常多，比如语音助手、导航系统等等。这里就不多介绍。说完这些，我们就将进入语音识别技术的前世今生的前世部分。

这是两个带着红领巾的少先队员，为什么以这个图片为背景呢，我猜测可能和语音识别技术的历史有关。因为语音识别技术的前世是在20世纪80年代兴起的，而那时，也就是上世纪八九十年代，带着红领巾的少先队员正是风靡全国，曾经作为一名少先队员，我骄傲。既然说到这里，我就大致说下语音识别技术的发展史：1952年贝尔实验室的Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统；20世纪70年代孤立词识别取得实质性的进展；1987年李开复开发世界上第一个‘非特定人连续语音识别系统’，(是的，就是那个创新工场的李开复，人家不仅能当总裁，还是一个科技大牛，不得不服呀，而且，王博士跟李开复是一个实验室的)，用统计的方法提升了语音识别率；2011年微软的DNN深度神经网络模型在语音识别领域取得成功。具体的发展史可以看参考文献1中的小视频。

2.孤立词识别

每一个单词都有模板，用于待预测语音与它进行比较，如上图所示，右边蓝色的语音信号到底是说的Yes还是No。我们直观的看一下，可能感觉它是Yes的可能性更大，因为Yes的信号波形中有两个包，No只有一个包，而待预测的信号也是有两个包，从波形上我们可以大概判断出待预测信号是Yes的可能性更大一些，当然这种看波形的方法实不可取的，更是不科学的。那么我们应该怎么做呢，就是计算待预测信号与模板信号的距离，其实也就是相似程度，距离越短，相似程度越高。但是信号的距离该怎么比较呢，是通过把信号转换成特征向量，然后比较向量之间的欧式距离或者其他的距离，接下来，就来到了特征提取的部分。

2.1 特征提取

对于一段语音信号，我们通常是一段一段的分析，我们提取一帧信号，它的长度通常为20~50ms，一帧信号要至少包含2~3个周期，那你怎么知道20~50ms就能有至少2~3个周期呢，因为人说话的频率是在100Hz左右，所以语音信号的周期就是10ms，微观上我们感觉一帧信号特别长，竟然包含几个周期，但其实，50ms也就是0.05s，比一眨眼的的时间还短。

接下来我们就需要分析这一帧信号，对一帧信号做傅里叶变换，这样可以得到信号的频域的信息。有关傅里叶变换的知识可以看参考文献2，讲的非常通俗易懂。经过傅里叶变换之后，我们会得到这一帧信号的频谱，它由两部分组成，其中蓝色的线表示的是精细结构反应的是音高，在汉语中比较常用，用来识别汉字的声调，但是在外语中用处相对较小；红色的线表示的是包络，也就是频谱的大致幅度，它反映的是音色，包含主要的信息。可以看到，包络的峰要比精细结构少很多，只是在500Hz、1700Hz和2500Hz的地方有峰值。像精细结构这样的多峰的波形分析起来比较复杂，其实可以直接用包络表示这段语音信号，虽然不能丝毫不差的表示，但是它包含了这段信号的大部分信息。但是，我们通常不会直接用包络表示语音信息，那么我们应该怎么做呢，就是对精细结构进行滤波，继续往下看。

我们对一帧信号进行三角滤波，中间那副图片中的蓝线表示的就是精细结构，红线表示的就是三角滤波器。可以看到，左边的三角滤波器比较密，这是跟人耳的频率特性相关的，人耳对低频信号比较敏感，所在低频部分的分辨率较高，高频部分的分辨率就相对较低。经过三角滤波后，我们得到最下边的成为滤波器组输出的图像，可以看出，Filterbank output的峰的个数相对精细结构也变少了，我们再一看，它和频谱的包络在形状上很相似，实际上，他就是频谱包络的一种近似。最下边这幅图的横坐标表示三角滤波器的标号，此示例中用了40个三角滤波器，纵坐标表示信号的能量，可以看出频谱精细结构在500Hz处有个高峰，所以在500Hz处的三角滤波器中的能量比较大，500Hz大约对应第12个三角滤波器，在下图可以看到，横坐标在12处有个高峰。其实这个Filterbank output就基本可以作为这一帧语音的特征了，但是我们还通常会进一步做数学变换来达到数据压缩的目的，继续往下看。