语音识别模型

最新推荐文章于 2025-03-13 18:38:14 发布

qq_36573282

最新推荐文章于 2025-03-13 18:38:14 发布

阅读量3.2k

点赞数

文章标签：隐马尔可夫模型机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36573282/article/details/104747540

版权

本文介绍了数字语音识别的基本步骤，重点讨论了隐马尔可夫模型在语音识别中的应用，包括前向后向算法和维特比算法。通过对模型的训练和解码过程的阐述，揭示了如何利用这些算法优化语音识别的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

数字语音识别的基本步骤
语音识别模型

数字语音识别的基本步骤

数字语音识别的基本模型如下图所示。首先对语音进行处理之后，使用声学模型进行解码，之后将音节与词表进行匹配得到词序列，最后再使用语言模型得到语句。
在这里插入图片描述
在中间的过程中，通过解码后的音学信号序列得到词语序列。常规的方法是使用贝叶斯来计算词语的概率值。
假设 $X$ 是声学信号序列， $W$ 是词语序列，那么贝叶斯公式为 $P_{\Lambda}(W|X)=P_{\lambda X}(X|W)\frac{P_{\lambda W}(W)}{P(X)}$ 。在训练的过程中是要最大化 $max_{\Lambda}P_{\Lambda}(W|X)$ ，在语音解码得到词语序列的时候则是最大化 $max_{W}P_{\Lambda}(W|X)$ 。

语音识别模型

语音识别常用的模型包括动态时间规整(Dyanmic Time Warping)、矢量量化(Vector Quantization)、隐马尔可夫模型(Hidden Markov Models)。

隐马尔可夫模型

高斯混合密度分布刻画了语音状态（例如音素）以及语音状态之间的时序变迁的统计规律。基本的过程包含三步。

评估：给定观测向量Y和模型，利用前向后向算法计算得分；
匹配：给定观测向量Y，用Viterbi算法确定一个优化的状态序列；
训练：用Baum-Welch算法(类似于EM)重新估计参数，使得得分最大。
已知一个有限的离散状态序列 $S=\{q_1,q_2,\dots,q_{N-1},q_N\}$ ，从时间 $t$ 到时间 $t + 1$ ，保持当前状态或迁移到另一个状态。从时刻 $t$ 状态为 $q_i$ 迁移到时刻 $t + 1$ 状态为 $q_j$ ，概率为 $a_{ij}=P(q_{t+1}=j|q_t=i),1\leq i,j\leq N$ 。这样就可以得到状态之间的迁移概率矩阵。
$A=\left[\begin{matrix} a_{11} & a_{12} & \dots & a_{1N}\\ a_{21} & a_{22} & \dots & a_{2N}\\ \dots & \dots & \dots & \dots\\ a_{N1} & a_{N2} & \dots & a_{NN} \end{matrix}\right]$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。