《统计学习方法》隐马尔可夫模型学习过程 Baum-Welch算法中几个公式的证明

本文链接：https://blog.csdn.net/jijijix/article/details/103283318

证明P182页 3.（1）中公式

$\sum_{I}log\pi_{i_1}P(O, I|\overline{\lambda}) = \sum_{i = 1}^{N}log\pi_{i}P(O,i_1=i|\overline{\lambda})$

证明：

首先明确上述公式中 $P(O,i_1=i|\overline{\lambda})$ 表示的是在参数 $\overline{\lambda}$ 下，生成的输出序列为，隐状态序列的第1个位置为，隐状态序列的第2到n个位置随便是什么都行的概率。所以 $P(O,i_1=i|\overline{\lambda})$ 表示成 $P(O,i_1=i|\overline{\lambda}) = \sum_{I^*}P(O, i_1=i,I^*|\overline{\lambda})$ 更清晰直观。

因此，有

$\begin{align*} \sum_{I}log\pi_{i_1}P(O, I|\overline{\lambda})&= \sum_{i_1 = 1}^{N}\sum_{i_2 = 1}^{N}...\sum_{i_n = 1}^{N}P(O, I|\overline{\lambda})\\ &=\sum_{i=1}^{N}\sum_{I^*}P(O, i_1=i, I^*|\overline{\lambda})\\ &=\sum_{i = 1}^{N}P(O, i_1=i| \overline{\lambda}) \end{align*}$

证明P182页 3. (2) 中公式

$\sum_{I}(\sum_{i = 1}^{T - 1}loga_{i_t, i_{t +1}})P(O, I | \overline{\lambda})=\sum_{i = 1}^{N}\sum_{j = 1}^{N}\sum_{t = 1}^{T-1}loga_{ij}P(O, i_t=i, i_{t +1} = j| \overline{\lambda})$

同3. (1)中给出的说明， $P(O, i_t=i, i_{t +1} = j| \overline{\lambda})$ 其实表达的含义应该是 $\sum_{I*}P(O, i_t=i, i_{t +1} = j, I^*| \overline{\lambda})$ ， I^* 代表的是除了位置和位置 t+1 之外的隐状态序列中其他位置的取值。

因此，有

$\begin{align*} \sum_{I}(\sum_{t = 1}^{T - 1}loga_{i_t, i_{t +1}})P(O, I | \overline{\lambda}) &=\sum_{I}\sum_{i = 1}^{T - 1}loga_{i_t, i_{t +1}}P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{I}loga_{i_t, i_{t +1}}P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{i = 1}^{N}\sum_{j = 1}^{N}\sum_{I^*}loga_{ij}P(O, i_t=i, i_{t + 1}=j , I^*| \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{i = 1}^{N}\sum_{j = 1}^{N}loga_{ij}\sum_{I^*}P(O, i_t=i, i_{t + 1}=j , I^*| \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{i = 1}^{N}\sum_{j = 1}^{N}loga_{ij}P(O, i_t = i, i_{t + 1}=j | \overline{\lambda})\\ &=\sum_{i = 1}^{N}\sum_{j = 1}^{N}\sum_{t = 1}^{T - 1}loga_{ij}P(O, i_t = i, i_{t + 1}=j | \overline{\lambda}) \end{align*}$

证明P182页公式3. (3)公式

$\sum_{I}(\sum_{t = 1}^{T}logb_{i_t}(o_t))P(O,I|\overline{\lambda})=\sum_{j = 1}^{N}\sum_{t = 1}^{T}logb_j(o_t)P(O, i_t=j| \overline{\lambda})$

同3. (1)中给出的说明， $P(O, i_t=j| \overline{\lambda})$ 其实表达的含义应该是 $\sum_{I*}P(O, i_t=j, I^*|\overline{\lambda})$ ， I^* 代表的是除了位置之外的隐状态序列中其他位置的取值。

因此，有

$\begin{align*} \sum_{I}(\sum_{t = 1}^{T}logb_{i_t}(o_t))P(O,I|\overline{\lambda}) &=\sum_{I}\sum_{t = 1}^{T}logb_{i_t}(o_t)P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{I}logb_{i_t}(o_t)P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{j = 1}^{N}\sum_{I*}logb_i(o_t)P(O, i_t=j, I^*|\overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{j = 1}^{N}logb_i(o_t)\sum_{I*}P(O, i_t=j, I^*|\overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{j = 1}^{N}logb_i(o_t)P(O, i_t=j|\overline{\lambda})\\ &=\sum_{j = 1}^{N}\sum_{t = 1}^{T}logb_j(o_t)P(O, i_t=j| \overline{\lambda}) \end{align*}$