如何入门语音识别?

首先推荐我的知乎 Live:语音识别技术的前世今生。这是对语音识别技术 30 年来发展的一份综述,听完后你就会对语音识别的整体框架有个了解。Live 的幻灯片可以在这里下载。

在之后的学习过程中,你可以不时地问自己下面的问题,逐步加深理解:语音识别系统一般由哪些模块组成?(答案见下图)各个模块的作用是什么? />特征提取模块是怎样保留语音信号中对语音识别有用的信息,抑制无关信息的?

声学模型是怎样在语音特征和音素之间建立映射的?

语言模型是怎样知道什么样的句子「像话」,什么样的句子「不像话」的?

解码器如何在海量的句子中快速地找到比较好的识别结果?

最近几年兴起的神经网络,颠覆了上面框图中的哪些模块?是怎么做到的?

对整体框架有了了解之后,就可以去学习细节了。经典的教科书包括:Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing

Lawrence Rabiner, Biing-Hwang Juang, Fundamentals of Speech Recognition

Dan jurafsky and James H. Martin, Speech and Language Processing

不过这些书都比较老了,只讲了「前世」的技术,并没涉及到「今生」的神经网络。神经网络技术目前仍在飞快的迭代中,所以并不容易找到一本与时俱进的教科书。

另外有两篇经典论文:L. R. Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.

A. Graves, S. Fern´andez, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks,” in International Conference on Machine Learning (ICML), ACM, 2006, pp. 369–376.

第一篇讲的是「前世」技术中的骨架 HMM,后一篇讲的是「今生」技术中的 CTC,当你学到这二者的时候值得一看。

如果你要自己上手搭语音识别系统,可以从 EESEN 这个工具包中的示例出发,慢慢修改。比如 TEDLIUM 那个示例就是不错的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值