自动语音识别ASR入门介绍

最新推荐文章于 2024-08-16 08:03:56 发布

夜空骑士

最新推荐文章于 2024-08-16 08:03:56 发布

阅读量5.7k

点赞数 2

分类专栏：人工智能语音识别文章标签：语音识别 DNN+HMM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NIeson2012/article/details/97140593

版权

本文介绍了自动语音识别的基础，包括GMM+HMM、动态弯算法DTW和高斯混合模型。通过MFCC特征提取，利用动态弯算法计算序列距离。GMM用于将模板压缩成模型，HMM用于语言建模。文中还讨论了神经网络在语音识别中的应用，如Tandem结构和Hybrid结构，并提到了Kaldi的相关资料。

摘要由CSDN通过智能技术生成

GMM + HMM

应用场景，做输入法，输入一段话，变成文字，智能地往里面加标点符号。

特征提取最常用MFCC
一帧frame信号，通常20-50ms（2-3个周期，人说话频率100Hz），一个音素之内。

音素：音标的一个音，比如ei、si等

MFCC维度越高，幅度越小，13维最好。

孤立词识别

对每一帧（有用信息：音色（包络））进行傅立叶变换 ➡️三角滤波得到filterbank output，基本可以作为特征了➡️取对数log、离散余弦变换DCT
压缩成更小的规模，13个采样点表示40个点的信息➡️MFCC语音的表示方式。

即一帧信息，转换成一个13维的向量。

MFCC序列是最常用的特征。主要描述频谱包络。
改进：一阶二阶差分，相邻两帧做差，得到上下文关系；各种归一化

怎样计算两个特征序列的距离?

动态弯算法 DTW

让待识别语音中的每一帧与模板中最相似的一帧匹配（模板，比如一个yes、no语音，待识别语音去匹配）
但要保持顺序
动态规划算法
总距离为各帧的欧氏距离之和

GMM (高斯混合模型)

每次说yes可能是不一样的，所以要多录几次yes，如果每个词有多个模板，但总不能每个模板都去和待识别语音比较，最后取一个最好的吧，所以怎么办?
答：把模板压缩成模型。把每个模板切成5段，比如把其中一个模板当成待识别语音，和上下两个模板匹配，匹配的结果是吧某些向量放在同一个阶段，
把每个阶段的向量汇总起来。

五个阶段（五个状态）

简略的表示这些向量：用高斯混合模型来拟合这些向量（13维空间的点）用模型来拟合在高维空间分布的情况，哪些多，哪些少。

GMM循环训练，要训练好多轮，为什么不是一次就达到最优解？：这是一个鸡生蛋蛋生鸡问题，由对齐方式更新模型参数，由模型参数更新对齐方式。首先瞎猜一个对齐方式，第一步得到的模型参数是在这个对齐方式下最优的，但这个对齐方式本身不是很优，所以在这个模

最低0.47元/天解锁文章

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。