【自动语音识别课程】第一课统计语音识别介绍

最新推荐文章于 2024-07-09 16:24:22 发布

s5plus1

最新推荐文章于 2024-07-09 16:24:22 发布

阅读量6k

点赞数 3

分类专栏：语音识别文章标签：语音识别机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/joey_su/article/details/36214117

版权

语音识别专栏收录该内容

6 篇文章 9 订阅

订阅专栏

原文地址：http://blog.csdn.net/joey_su/article/details/36414877

转载请注明出处，欢迎交流。

课程用书：Jurafsky & Martin (2008), Speech and Language Processing,Pearson Education (2nd edition). (J&M)

目录

统计语音识别介绍
原理
- 语音信号处理
- HMM声学模型
- 发音与语言模型
- 研究
前沿话题
- 自适应
- （深度）神经网络
- 区分性训练

第一课主要介绍了对语音识别进行概述，回答了三个问题：什么是语音识别？语音识别有哪些分类？怎样实现？

什么是语音识别（ASR）？语音识别实际上是一个语音到文本的转换过程。

语音识别有哪些分类？根据语料库大小，分为大词汇量和小词汇量语音识别；根据说话人，可分为特定说话人和说话人无关；根据识别类型，可分为连续语音和孤立词识别等。此外，语音识别还跟发声环境有关，如环境的噪音，有几个人同时说话等。

怎样实现？有两种方法，一种是根据语法知识，另一种是利用机器学习的方法。世界上有太多的语言，它们的语法规则也不同，所以第一种方法是非常困难的；而数据驱动的机器学习可从大量的语音数据（数千小时的录音）中建立简单的模型，所以一般采用机器学习的方法。

统计语音识别的基本公式：

其中，

表示声学特征向量序列（观察序列），

表示单词序列，

表示最可能的单词序列。

根据贝叶斯定理：

统计语音识别框图：

其中，声学模型为隐马尔科夫模型，Lexicon表示词典，语言模型为n-gram模型。

语音的分层建模：

语句->单词->子单词（单词的各个音素）->对每个音素建立HMM->每个状态对应一些声学特征。

因为统计语音识别是数据驱动的，所以语料库对于识别系统来说非常重要。

TIMIT语料库（1986年）——仍可用的第一个广泛使用的语料库

来自630个北美说话人的话音
语音转录，时间对齐
标准化的训练与测试集，一致的评估指标（音素错误率）
许多在TIMIT后发布的标准语料库：DARPA资源管理，阅读报纸文本（Wall Street Journal），人机对话（ATIS），广播新闻（Hub4）,电话对话语音（Switchboard），多方会议（AMI）

评估

Substitution——替换

Deletion——删除

Insertion——插入

N——单词数目

单词错误率（WER）就是对三种错误类型进行累加。

国际上有个著名的NIST评估。

下节课将讨论信号分析。

阅读资料

Jurafsky and Martin (2008). Speech and Language Processing (2nd ed.): Chapter 9 to end of sec 9.3.
Renals and Hain (2010). “Speech Recognition”, Computational Linguistics and Natural Language Processing Handbook, Clark, Fox and Lappin (eds.), Blackwells. (on website)

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。