语音识别（一）

最新推荐文章于 2022-11-09 15:52:54 发布

淑芬和二狗

最新推荐文章于 2022-11-09 15:52:54 发布

阅读量494

点赞数

分类专栏：语音文章标签：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangzhanxidian/article/details/79872701

版权

语音专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考：http://www.julyedu.com/video/play/104/916

语音信号的频率一般在300Hz-3400Hz，按照奈奎斯特采样定理，为保证频谱不混叠，采样率至少为最高频率的2倍，一般最低采样率为8000Hz。

在2010年以前，语音识别的技术主要基于混合高斯模型(GMM)和隐性马尔科夫(HMM)模型，2010年以后，主要基于神经网络。该讲座主要是讲怎样将语音转换成文字，相关课题包括(本讲座不涉及)

-元数据识别：语种、说话人、情感等

-语音增强与分离

-语音合成(文字变语音)与转换

-自然语言理解、对话系统

孤立词识别

1.特征提取

（1）分段提取，一段即一帧，一帧信号通常为20-50ms,包含2-3个周期，在一个音素（如你好，n、i、h 、a、o是一个音素）内（保证傅里叶变换区间的稳定性）。

（2）傅里叶变换—>三角滤波—>离散余弦变换（DCT）

男声的基频在100Hz左右，女声的基频在200Hz左右，频谱具有精细结构和包络，通过三角滤波提取频谱的包络。

MFCC序列是最常用的特征

2.“动态弯（Dynamic Time Warping）”算法（计算两个特征序列的举例）

通过动态规划算法匹配待计算距离的两个帧，总距离为各帧欧式距离之和。

3. GMM(混合高斯模型)

如果Yes这个单词有多个模板怎么办？模板—>模型

以其中一个模板为标准，其他模板与之对齐，把模板切分成多个段落，用高斯分布的叠加拟合每段中特征向量的分布。

通过期望最大化估计GMM模型的参数。

4. HMM(隐性马尔科夫模型)

对音素持续时间建模（添加状态间的转移概率）

模型的参数：

-转移概率

-观测概率

-模型是单向的，不必讨论初始概率

EM训练算法

-如果知道对齐方式，则易得模型参数，知道模型参数，则易得对齐方式，现在是都不知道，先瞎猜一种对齐方式，如均匀分割，由此求出模型参数(M步)，再更新对齐方式（E步），对齐方式可用Viterbi,实际中用Forward-backward,迭代直到收敛。

淑芬和二狗

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
语音识别（一）

参考：http://www.julyedu.com/video/play/104/916 语音信号的频率一般在300Hz-3400Hz，按照奈奎斯特采样定理，为保证频谱不混叠，采样率至少为最高频率的2倍，一般最低采样率为8000Hz。在2010年以前，语音识别的技术主要基于混合高斯模型(GMM)和隐性马尔科夫(HMM)模型，2010年以后，主要基于神经网络。该讲座主要是讲怎样...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。