语音识别学习日志 2018-7-19 语音识别基础知识准备（5）[Viterbi算法]

最新推荐文章于 2024-04-28 19:30:27 发布

WePlayDirty

最新推荐文章于 2024-04-28 19:30:27 发布

阅读量2.8k

点赞数 1

分类专栏： ASR

本文链接：https://blog.csdn.net/u013569304/article/details/81120718

版权

ASR 专栏收录该内容

23 篇文章 4 订阅

订阅专栏

Viterbi算法是一个通用的求序列最短距离的动态规划算法。HMM模型的解码可以用Viterbi算法完成，解码过程可以描述为给定HMM的模型和观测序列，求给定观测模型下最可能出现的状态序列。

HMM最可能隐藏状态序列求解概述

在HMM模型的解码问题中，给定模型 $\small \lambda = (A, B, \Pi)$ 和观测序列 $\small O =\{o_1,o_2,...o_T\}$ ，求给定观测序列O条件下，最可能出现的对应的状态序列 $\small I^*= \{i_1^*,i_2^*,...i_T^*\}$ ，即 $\small P(I^{\ast }|O)$ 要最大化。

一个可能的近似解法是求出观测序列O在每个时刻t最可能的隐藏状态 $\small i^\ast_t$ 然后得到一个近似的隐藏状态序列 $\small I^*= \{i_1^*,i_2^*,...i_T^*\}$ 。

给定模型λ和观测序列O,在时刻tt处于状态 $\small q_i$ 的概率记为:

$\small \gamma_t(i) = P(i_t = q_i | O,\lambda) = \frac{P(i_t = q_i ,O|\lambda)}{P(O|\lambda)}$

利用前向概率和后向概率的定义可知：

$\small P(i_t = q_i ,O|\lambda) = \alpha_t(i)\beta_t(i)$

于是我们得到：

$\small \gamma_t(i) = \frac{ \alpha_t(i)\beta_t(i)}{\sum\limits_{j=1}^N \alpha_t(j)\beta_t(j)}$

因此在给定模型λ和观测序列O时，在时刻tt处于状态 $\small q_i$ 的概率是 $\small \gamma_t(i)$ ，这个概率可以通过HMM的前向算法与后向算法计算。

这样可得：

$\small i_t^* = arg \max_{1 \leq i \leq N}[\gamma_t(i)], \; t =1,2,...T$

近似算法很简单，但是却不能保证预测的状态序列是整体是最可能的状态序列，因为预测的状态序列中某些相邻的隐藏状态可能存在转移概率为0的情况。而维特比算法可以将HMM的状态序列作为一个整体来考虑，避免近似算法的问题。

维特比算法概述

Viterbi算法是一个基于动态规划的解码算法，在HMM中，维特比算法定义了两个局部状态用于递推。

第一个局部状态是在时刻tt隐藏状态为ii所有可能的状态转移路径 $\small i_1,i_2,...i_t$ 中的概率最大值。记为 $\small \delta_t(i)$ :

$\small \delta_t(i) = \max_{i_1,i_2,...i_{t-1}}\;P(i_t=i, i_1,i_2,...i_{t-1},o_t,o_{t-1},...o_1|\lambda),\; i =1,2,...N$

由 $\small \delta_t(i)$ 的定义可以得到δ的递推表达式：

$\small \delta_{t+1}(i) = \max_{i_1,i_2,...i_{t}}\;P(i_{t+1}=i, i_1,i_2,...i_{t},o_{t+1},o_{t},...o_1|\lambda) & = \max_{1 \leq j \leq N}\;[\delta_t(j)a_{ji}]b_i(o_{t+1})$

第二个局部状态由第一个局部状态递推得到。我们定义在时刻t隐藏状态为i的所有单个状态转移路径 $\small (i_1,i_2,...,i_{t-1},i)$ 中概率最大的转移路径中第t−1个节点的隐藏状态为 $\small \Psi_t(i)$ ,其递推表达式可以表示为：

$\small \Psi_t(i) = arg \; \max_{1 \leq j \leq N}\;[\delta_{t-1}(j)a_{ji}]$

有了这两个局部状态，我们就可以从时刻0一直递推到时刻T，然后利用 $\small \Psi_t(i)$ 记录的前一个最可能的状态节点回溯，直到找到最优的状态序列。

维特比算法流程

输入：HMM模型 $\small \lambda = (A, B, \Pi)$ ，观测序列 $\small O=(o_1,o_2,...o_T)$

　　　　输出：最有可能的隐藏状态序列 $\small I^*= \{i_1^*,i_2^*,...i_T^*\}$

　　　　1）初始化局部状态：

$\small \delta_1(i) = \pi_ib_i(o_1),\;i=1,2...N$

$\small \Psi_1(i)=0,\;i=1,2...N$

　　　　2) 进行动态规划递推时刻 $\small t=2,3,...T$ 时刻的局部状态：

$\small \delta_{t}(i) = \max_{1 \leq j \leq N}\;[\delta_{t-1}(j)a_{ji}]b_i(0_{t}),\;i=1,2...N$

$\small \Psi_t(i) = arg \; \max_{1 \leq j \leq N}\;[\delta_{t-1}(j)a_{ji}],\;i=1,2...N$

　　　　3) 计算时刻T最大的 $\small \delta_{T}(i)$ ,即为最可能隐藏状态序列出现的概率。计算时刻T最大的 $\small \Psi_t(i)$ ,即为时刻T最可能的隐藏状态。

$\small P* = \max_{1 \leq j \leq N}\delta_{T}(i)$

$\small i_T^* = arg \; \max_{1 \leq j \leq N}\;[\delta_{T}(i)]$

　　　　4) 利用局部状态 $\small \Psi(i)$ 开始回溯。对于 $\small t=T-1,T-2,...,1$ ：

$\small i_t^* = \Psi_{t+1}(i_{t+1}^*)$

　　　　最终得到最有可能的隐藏状态序列 $\small I^*= \{i_1^*,i_2^*,...i_T^*\}$

Viterbi算法解码HMM实例

下面使用该文章中的HMM模型实例来说明Viterbi算法求解的过程。

我们的观察集合是:

V={红，白}，M=2

我们的状态集合是：

Q={盒子1，盒子2，盒子3}，N=3

而观察序列和状态序列的长度为3.

初始状态分布为：

$\small \Pi = (0.2,0.4,0.4)^T$

状态转移概率分布矩阵为：

$\small A = \left( \begin{array} {ccc} 0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 &0.5 \end{array} \right)$

观测状态概率矩阵为：

$\small B = \left( \begin{array} {ccc} 0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3 \end{array} \right)$

球的颜色的观测序列:

O={红，白，红}

按照我们上一节的维特比算法，首先需要得到三个隐藏状态在时刻1时对应的各自两个局部状态，此时观测状态为1：

$\small \delta_1(1) = \pi_1b_1(o_1) = 0.2 \times 0.5 = 0.1$

$\small \delta_1(2) = \pi_2b_2(o_1) = 0.4 \times 0.4 = 0.16$

$\small \delta_1(3) = \pi_3b_3(o_1) = 0.4 \times 0.7 = 0.28$

$\small \Psi_1(1)=\Psi_1(2) =\Psi_1(3) =0$

　现在开始递推三个隐藏状态在时刻2时对应的各自两个局部状态，此时观测状态为2：

$\tiny \delta_2(1) = \max_{1\leq j \leq 3}[\delta_1(j)a_{j1}]b_1(o_2) = \max_{1\leq j \leq 3}[0.1 \times 0.5, 0.16 \times 0.3, 0.28\times 0.2] \times 0.5 = 0.028$

$\tiny \Psi_2(1)=3$

$\tiny \delta_2(2) = \max_{1\leq j \leq 3}[\delta_1(j)a_{j2}]b_2(o_2) = \max_{1\leq j \leq 3}[0.1 \times 0.2, 0.16 \times 0.5, 0.28\times 0.3] \times 0.6 = 0.0504$

$\tiny \Psi_2(2)=3$

$\tiny \delta_2(3) = \max_{1\leq j \leq 3}[\delta_1(j)a_{j3}]b_3(o_2) = \max_{1\leq j \leq 3}[0.1 \times 0.3, 0.16 \times 0.2, 0.28\times 0.5] \times 0.3 = 0.042$

$\tiny \Psi_2(3)=3$

　　　　继续递推三个隐藏状态在时刻3时对应的各自两个局部状态，此时观测状态为1：

$\tiny \delta_3(1) = \max_{1\leq j \leq 3}[\delta_2(j)a_{j1}]b_1(o_3) = \max_{1\leq j \leq 3}[0.028 \times 0.5, 0.0504 \times 0.3, 0.042\times 0.2] \times 0.5 = 0.00756$

$\tiny \Psi_3(1)=2$

$\tiny \delta_3(2) = \max_{1\leq j \leq 3}[\delta_2(j)a_{j2}]b_2(o_3) = \max_{1\leq j \leq 3}[0.028 \times 0.2, 0.0504\times 0.5, 0.042\times 0.3] \times 0.4 = 0.01008$

$\tiny \Psi_3(2)=2$

$\tiny \delta_3(3) = \max_{1\leq j \leq 3}[\delta_2(j)a_{j3}]b_3(o_3) = \max_{1\leq j \leq 3}[0.028 \times 0.3, 0.0504 \times 0.2, 0.042\times 0.5] \times 0.7 = 0.0147$

$\tiny \Psi_3(3)=3$

　　　　此时已经到最后的时刻，我们开始准备回溯。此时最大概率为 $\tiny \delta_3(3)$ ,从而得到 $\tiny i_3^* =3$

　　　　由于 $\tiny \Psi_3(3)=3$ ,所以 $\tiny i_2^* =3$ , 而又由于 $\tiny \Psi_2(3)=3$ ,所以 $\tiny i_1^* =3$ 。从而得到最终的最可能的隐藏状态序列为：(3,3,3).

WePlayDirty

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
语音识别学习日志 2018-7-19 语音识别基础知识准备（5）[Viterbi算法]

Viterbi算法是一个通用的求序列最短距离的动态规划算法。HMM模型的解码可以用Viterbi算法完成，解码过程可以描述为给定HMM的模型和观测序列，求给定观测模型下最可能出现的状态序列。HMM最可能隐藏状态序列求解概述在HMM模型的解码问题中，给定模型和观测序列，求给定观测序列O条件下，最可能出现的对应的状态序列，即要最大化。一个可能的近似解法是求出观测序列O在每个时刻t最可能的隐...
复制链接

扫一扫