【自动语音识别课程】第一课统计语音识别介绍

最新推荐文章于 2024-10-15 20:55:05 发布

s5plus1

最新推荐文章于 2024-10-15 20:55:05 发布

阅读量6.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：语音识别文章标签：语音识别机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/joey_su/article/details/36214117

语音识别专栏收录该内容

6 篇文章

订阅专栏

本文介绍了语音识别的基础概念，包括其定义、分类及实现方法。详细解释了统计语音识别原理，并探讨了声学模型、语言模型及其在实际应用中的重要性。

原文地址：http://blog.csdn.net/joey_su/article/details/36414877

转载请注明出处，欢迎交流。

课程用书：Jurafsky & Martin (2008), Speech and Language Processing,Pearson Education (2nd edition). (J&M)

目录

统计语音识别介绍
原理
- 语音信号处理
- HMM声学模型
- 发音与语言模型
- 研究
前沿话题
- 自适应
- （深度）神经网络
- 区分性训练

第一课主要介绍了对语音识别进行概述，回答了三个问题：什么是语音识别？语音识别有哪些分类？怎样实现？

什么是语音识别（ASR）？语音识别实际上是一个语音到文本的转换过程。

语音识别有哪些分类？根据语料库大小，分为大词汇量和小词汇量语音识别；根据说话人，可分为特定说话人和说话人无关；根据识别类型，可分为连续语音和孤立词识别等。此外，语音识别还跟发声环境有关，如环境的噪音，有几个人同时说话等。

怎样实现？有两种方法，一种是根据语法知识，另一种是利用机器学习的方法。世界上有太多的语言，它们的语法规则也不同，所以第一种方法是非常困难的；而数据驱动的机器学习可从大量的语音数据（数千小时的录音）中建立简单的模型，所以一般采用机器学习的方法。

统计语音识别的基本公式：

其中，

表示声学特征向量序列（观察序列），

表示单词序列，

表示最可能的单词序列。

根据贝叶斯定理：

统计语音识别框图：

其中，声学模型为隐马尔科夫模型，Lexicon表示词典，语言模型为n-gram模型。

语音的分层建模：

语句->单词->子单词（单词的各个音素）->对每个音素建立HMM->每个状态对应一些声学特征。

因为统计语音识别是数据驱动的，所以语料库对于识别系统来说非常重要。

TIMIT语料库（1986年）——仍可用的第一个广泛使用的语料库

来自630个北美说话人的话音
语音转录，时间对齐
标准化的训练与测试集，一致的评估指标（音素错误率）
许多在TIMIT后发布的标准语料库：DARPA资源管理，阅读报纸文本（Wall Street Journal），人机对话（ATIS），广播新闻（Hub4）,电话对话语音（Switchboard），多方会议（AMI）

评估

Substitution——替换

Deletion——删除

Insertion——插入

N——单词数目

单词错误率（WER）就是对三种错误类型进行累加。

国际上有个著名的NIST评估。

下节课将讨论信号分析。

阅读资料

Jurafsky and Martin (2008). Speech and Language Processing (2nd ed.): Chapter 9 to end of sec 9.3.
Renals and Hain (2010). “Speech Recognition”, Computational Linguistics and Natural Language Processing Handbook, Clark, Fox and Lappin (eds.), Blackwells. (on website)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。