原文地址:http://blog.csdn.net/joey_su/article/details/36414877
课程用书:Jurafsky & Martin (2008), Speech and Language Processing,Pearson Education (2nd edition). (J&M)
目录
- 统计语音识别介绍
- 原理
- 语音信号处理
- HMM声学模型
- 发音与语言模型
- 研究
- 前沿话题
- 自适应
- (深度)神经网络
- 区分性训练
第一课主要介绍了对语音识别进行概述,回答了三个问题:什么是语音识别?语音识别有哪些分类?怎样实现?
什么是语音识别(ASR)?语音识别实际上是一个语音到文本的转换过程。
语音识别有哪些分类?根据语料库大小,分为大词汇量和小词汇量语音识别;根据说话人,可分为特定说话人和说话人无关;根据识别类型,可分为连续语音和孤立词识别等。此外,语音识别还跟发声环境有关,如环境的噪音,有几个人同时说话等。
怎样实现?有两种方法,一种是根据语法知识,另一种是利用机器学习的方法。世界上有太多的语言,它们的语法规则也不同,所以第一种方法是非常困难的;而数据驱动的机器学习可从大量的语音数据(数千小时的录音)中建立简单的模型,所以一般采用机器学习的方法。
统计语音识别的基本公式:
其中,
表示声学特征向量序列(观察序列),
表示单词序列,
表示最可能的单词序列。
根据贝叶斯定理:
统计语音识别框图:
其中,声学模型为隐马尔科夫模型,Lexicon表示词典,语言模型为n-gram模型。
语音的分层建模:
语句->单词->子单词(单词的各个音素)->对每个音素建立HMM->每个状态对应一些声学特征。
因为统计语音识别是数据驱动的,所以语料库对于识别系统来说非常重要。
TIMIT语料库(1986年)——仍可用的第一个广泛使用的语料库
- 来自630个北美说话人的话音
- 语音转录,时间对齐
- 标准化的训练与测试集,一致的评估指标(音素错误率)
- 许多在TIMIT后发布的标准语料库:DARPA资源管理,阅读报纸文本(Wall Street Journal),人机对话(ATIS),广播新闻(Hub4),电话对话语音(Switchboard),多方会议(AMI)
评估
Substitution——替换
Deletion——删除
Insertion——插入
N——单词数目
单词错误率(WER)就是对三种错误类型进行累加。
国际上有个著名的NIST评估。
下节课将讨论信号分析。
阅读资料
- Jurafsky and Martin (2008). Speech and Language Processing (2nd ed.): Chapter 9 to end of sec 9.3.
- Renals and Hain (2010). “Speech Recognition”, Computational Linguistics and Natural Language Processing Handbook, Clark, Fox and Lappin (eds.), Blackwells. (on website)