ASR---自动语音识别 概述

本文介绍了自动语音识别的基本原理,包括声学模型、语言模型以及关键组件如发音字典和解码器。重点讨论了HMM在语音识别中的应用,包括短时平稳假设、HMM的状态转移和输出概率,并探讨了不同状态数对识别率的影响。此外,还提到了实际HMM拓扑结构的选择及其在语音识别系统中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

语音识别基本原理:

观察矢量X=X1X2…Xn
词序列W=W1W2…Wm 
最优词序列W^

 

P(X|W): 声学模型描述了词W产生的情况下信号X的概率。

P(W): 语言模型描述了词W出现的频率

概率分布P(X|W)和P(W)被假设成某种已知的概率分布函数Pa(X|W)Pb(W):

概率分布函数中的参数集a和b通过统计学的方法从实际训练数据中估计得到


P(W)语言模型:

 


 

语音识别系统:

 

语料库corpus:尽可能覆盖各种发音,性别,年龄多样化,数据越多越好。

发音字典Lex/dict:是联系AM, LM, Decoder的桥梁。

保存某种特定的对应关系。exp:----发音    汉字----声韵母

深圳

深圳

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值