如何入门语音识别？

最新推荐文章于 2021-06-08 21:10:49 发布

编程大乐趣

最新推荐文章于 2021-06-08 21:10:49 发布

阅读量216

点赞数

首先推荐我的知乎 Live：语音识别技术的前世今生。这是对语音识别技术 30 年来发展的一份综述，听完后你就会对语音识别的整体框架有个了解。Live 的幻灯片可以在这里下载。

在之后的学习过程中，你可以不时地问自己下面的问题，逐步加深理解：语音识别系统一般由哪些模块组成？（答案见下图）各个模块的作用是什么？ />特征提取模块是怎样保留语音信号中对语音识别有用的信息，抑制无关信息的？

声学模型是怎样在语音特征和音素之间建立映射的？

语言模型是怎样知道什么样的句子「像话」，什么样的句子「不像话」的？

解码器如何在海量的句子中快速地找到比较好的识别结果？

最近几年兴起的神经网络，颠覆了上面框图中的哪些模块？是怎么做到的？

对整体框架有了了解之后，就可以去学习细节了。经典的教科书包括：Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing

Lawrence Rabiner, Biing-Hwang Juang, Fundamentals of Speech Recognition

Dan jurafsky and James H. Martin, Speech and Language Processing

不过这些书都比较老了，只讲了「前世」的技术，并没涉及到「今生」的神经网络。神经网络技术目前仍在飞快的迭代中，所以并不容易找到一本与时俱进的教科书。

另外有两篇经典论文：L. R. Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.

A. Graves, S. Fern´andez, F. Gomez, and J. Schmidhuber, “Connectionist temporal classiﬁcation: Labelling unsegmented sequence data with recurrent neural networks,” in International Conference on Machine Learning (ICML), ACM, 2006, pp. 369–376.

第一篇讲的是「前世」技术中的骨架 HMM，后一篇讲的是「今生」技术中的 CTC，当你学到这二者的时候值得一看。

如果你要自己上手搭语音识别系统，可以从 EESEN 这个工具包中的示例出发，慢慢修改。比如 TEDLIUM 那个示例就是不错的。

编程大乐趣

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何入门语音识别？

首先推荐我的知乎 Live：语音识别技术的前世今生。这是对语音识别技术 30 年来发展的一份综述，听完后你就会对语音识别的整体框架有个了解。Live 的幻灯片可以在这里下载。在之后的学习过程中，你可以不时地问自己下面的问题，逐步加深理解：语音识别系统一般由哪些模块组成？（答案见下图）各个模块的作用是什么？特征提取模块是怎样保留语音信号中对语音识别有用的信息，抑制无关信息的？声学模型是怎样在语音特征...
复制链接

扫一扫