端到端的语音识别

最新推荐文章于 2024-04-28 19:30:27 发布

908的男同学

最新推荐文章于 2024-04-28 19:30:27 发布

阅读量2.9k

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nwnu_908/article/details/118157514

版权

传统的语音识别系统中，往往包含多个独立的模块，通常有如下模块：

特征提取模块,从输入的语音信号中提取特征，用于声学模型的建模以及解码过程,以MFCC为例，通过分帧、逐帧加窗、预加重、FFT计算功率谱、生成Mel Banks计算滤波输出、Log求倒谱、DCT离散余弦变换得到MFCC特征;

声学模型,通常通过对词，音节、音素等基本的声学单元进行建模，生成声学模型，主要面临两个问题特征向量序列的可变长和音频信号的丰富变化性，其中可变长特征向量序列问题在学术上通常有动态时间规划（Dynamic Time Warping, DTW）和隐马尔科夫模型（Hidden Markov Model, HMM）方法来解决，而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的，声学模型需要足够的鲁棒性来处理以上的情况;

语言模型，语言模型对系统所需识别的语言在单词层面上进行建模，判断出那个词是最适合出现在当前句中，当前采用基于统计的N元语法（N-gram）模型的相对较多，就我个人使用而言效果还是不错的，ngram语言模型采用了n元依赖假设，即当前词的概率，只依赖于前n-1个词，

不考虑平滑的问题，模型概率估计使用最大似然概率：

最低0.47元/天解锁文章

908的男同学

关注

5
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
端到端的语音识别

传统的语音识别系统中，往往包含多个独立的模块，通常有如下模块：特征提取模块,从输入的语音信号中提取特征，用于声学模型的建模以及解码过程,以MFCC为例，通过分帧、逐帧加窗、预加重、FFT计算功率谱、生成Mel Banks计算滤波输出、Log求倒谱、DCT离散余弦变换得到MFCC特征;声学模型,通常通过对词，音节、音素等基本的声学单元进行建模，生成声学模型，主要面临两个问题特征向量序列的可变长和音频信号的丰富变化性，其中可变长特征向量序列问题在学术上通常有动态时间规划（Dynamic Time War
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。