【自动语音识别课程】第一课 统计语音识别介绍

课程网址


原文地址:http://blog.csdn.net/joey_su/article/details/36414877

转载请注明出处,欢迎交流。


课程用书:Jurafsky & Martin (2008), Speech and Language Processing,Pearson Education (2nd edition). (J&M)


目录

  1. 统计语音识别介绍
  2. 原理
    • 语音信号处理
    • HMM声学模型
    • 发音与语言模型
    • 研究
  3. 前沿话题
    • 自适应
    • (深度)神经网络
    • 区分性训练


第一课主要介绍了对语音识别进行概述,回答了三个问题:什么是语音识别?语音识别有哪些分类?怎样实现?


什么是语音识别(ASR)?语音识别实际上是一个语音到文本的转换过程。


语音识别有哪些分类?根据语料库大小,分为大词汇量和小词汇量语音识别;根据说话人,可分为特定说话人和说话人无关;根据识别类型,可分为连续语音和孤立词识别等。此外,语音识别还跟发声环境有关,如环境的噪音,有几个人同时说话等。


怎样实现?有两种方法,一种是根据语法知识,另一种是利用机器学习的方法。世界上有太多的语言,它们的语法规则也不同,所以第一种方法是非常困难的;而数据驱动的机器学习可从大量的语音数据(数千小时的录音)中建立简单的模型,所以一般采用机器学习的方法。


统计语音识别的基本公式:

其中,

表示声学特征向量序列(观察序列),

表示单词序列,

表示最可能的单词序列。


根据贝叶斯定理:


统计语音识别框图:


其中,声学模型为隐马尔科夫模型,Lexicon表示词典,语言模型为n-gram模型。


语音的分层建模:


语句->单词->子单词(单词的各个音素)->对每个音素建立HMM->每个状态对应一些声学特征。


因为统计语音识别是数据驱动的,所以语料库对于识别系统来说非常重要。

TIMIT语料库(1986年)——仍可用的第一个广泛使用的语料库

  • 来自630个北美说话人的话音
  • 语音转录,时间对齐
  • 标准化的训练与测试集,一致的评估指标(音素错误率)
  • 许多在TIMIT后发布的标准语料库:DARPA资源管理,阅读报纸文本(Wall Street Journal),人机对话(ATIS),广播新闻(Hub4),电话对话语音(Switchboard),多方会议(AMI)

评估

Substitution——替换

Deletion——删除

Insertion——插入

N——单词数目

单词错误率(WER)就是对三种错误类型进行累加


国际上有个著名的NIST评估


下节课将讨论信号分析。


阅读资料

  • Jurafsky and Martin (2008). Speech and Language Processing (2nd ed.): Chapter 9 to end of sec 9.3.
  • Renals and Hain (2010). “Speech Recognition”, Computational Linguistics and Natural Language Processing Handbook, Clark, Fox and Lappin (eds.), Blackwells. (on website)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值