隐马尔科夫模型HMM详解(2)——python实现

最新推荐文章于 2024-05-09 01:18:03 发布

栋次大次

最新推荐文章于 2024-05-09 01:18:03 发布

阅读量1.2k

点赞数 4

分类专栏： speech recognition 文章标签：语音识别算法人工智能 python

本文链接：https://blog.csdn.net/weixin_39529413/article/details/117262495

版权

speech recognition 专栏收录该内容

12 篇文章 12 订阅

订阅专栏

本文详细介绍了隐马尔科夫模型(HMM)的学习算法，包括Viterbi学习算法和Baum-Welch学习算法。Viterbi算法适用于已知对齐序列的情况下更新模型参数，而Baum-Welch算法则考虑了所有可能的状态路径，通过EM算法进行参数的最大似然估计。文章还给出了Python代码实现，并以一个简单的盒子和球模型为例进行了演示。

摘要由CSDN通过智能技术生成

学习算法

已知观测序列 $O=\left(o_{1}, o_{2}, \ldots, o_{T}\right), b_{j}\left(o_{t}\right)=\sum_{m=1}^{M} c_{j m} \mathcal{N}\left(o_{t} ; \mu_{j m}, \Sigma_{j m}\right)$ ，估计GMM-HMM参数 $\lambda$ ，使 $P(O|\lambda)$ 最大。参数 $\lambda$ 包括：

初始状态概率向量 $\pi = (\pi_i)$
转移概率矩阵 $A=[a_{ij}]_{N\times N}$
状态 $j$ 的GMM参数 $(c_{jm},\mu_{jm},\Sigma_{jm})$ , $j = 1, 2, . . ., N; m = 1, . . ., M$ 表示GMM分量标号。

Viterbi学习算法

如果已知状态-观测对齐序列，每个观测 $o_t$ 对应一个具体的状态，状态-观测对齐序列可通过Viterbi解码算法得到，也可通过人工标注得到。知道每个观测对应的状态，则：

$\pi_i$ 可通过最大似然估计得到：

令 $C (i)$ 表示初始状态为 $i$ 的次数
$\widehat{\pi}_{i}=\frac{C(i)}{\sum_{k} C(k)}$

$a_{ij}$ 也可通过最大似然估计得到：

令 $\rightarrow j)$ 表示从状态 $i$ 到状态 $j$ 的转移次数
$\hat{a}_{i j}=\frac{C(i \rightarrow j)}{\sum_{k} C(i \rightarrow k)}$

可得每个状态 $j$ 对应的观测集合 $Z_{j}=\left(y_{1}, y_{2}, \ldots, y_{N}\right)$ ，每个状态对应一个GMM，也就得到了每个GMM对应的观测集合 $Z_{j}=\left(y_{1}, y_{2}, \ldots, y_{N}\right)$ 。

问题：用viterbi算法得到对齐序列需要用到模型参数 $\lambda$ ，最初的 $\lambda$ 怎么得到？

当GMM只有一个分量， $b_{j}\left(o_{t}\right)=\mathcal{N}\left(o_{t} ; \mu_{j}, \Sigma_{j}\right)$ ， $Z_j|$ 表示 $Z_j$ 的元素个数，则：

$\hat{\mu}_{j}=\frac{\sum_{o_{t} \in Z_{j}} o_{t}}{\left|Z_{j}\right|}$
$\hat{\Sigma}_{j}=\frac{\sum_{o_{t} \in Z_{j}}\left(o_{t}-\hat{\mu}_{j}\right)\left(o_{t}-\hat{\mu}_{j}\right)^{T}}{\left|Z_{j}\right|}$

当GMM有多个分量， $b_{j}\left(o_{t}\right)=\sum_{m=1}^{M} c_{j m} \mathcal{N}\left(o_{t} ; \mu_{j m}, \Sigma_{j m}\right)$ ，可以利用EM算法进行更新（参考上一篇文章）。

Viterbi学习算法

初始化GMM-HMM参数 $\lambda = (\pi_i,a_{ij},GMM参数)$ ，其中每个状态 $j$ 对应的GMM参数为 $(c_{jm},\mu_{jm},\Sigma_{jm})$
基于GMM-HMM参数 $\lambda$ 和Viterbi算法得到状态-观测对齐，得到每个观测对应的隐藏状态
更新参数 $\lambda$
$\hat{\pi}_{i}=\frac{C(i)}{\sum_{k} C(k)}, C(i)$ 表示初始状态为 $i$ 的次数
$\hat{a}_{i j}=\frac{C(i \rightarrow j)}{\sum_{k} C(i \rightarrow k)}, C(i \rightarrow j)$ 表示从状态 $i$ 到状态 $j$ 的转移次数
用上一篇文章将的EM算法更新GMM参数

重复2，3步，直到收敛

Baum-Welch学习算法

首先看单分量GMM的情况

Viterbi学习算法是一种近似，只考虑了最优对齐路径。而每个时刻 $t$ 每个状态 $j$ 以一定的概率出现，而不是硬对齐（每个时刻只对应一个状态）。

状态占用概率：给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率为 $\gamma_{t}(i)$ :
$\gamma_{t}(i)=P\left({i_{t}=q_{i}} \mid {O, \lambda}\right)=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{i=1}^{N} \alpha_{T}(i)}$
可以将这个概率用于EM算法，学习到参数 $\lambda$ :

E步：估计状态占用概率
M步：基于估计的状态占用概率，重新估计参数 $\lambda$ （最大化）

问题：证明 $\gamma_{t}(i)=P\left({i_{t}=q_{i}} \mid {O, \lambda}\right)=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{i=1}^{N} \alpha_{T}(i)}$ 成立。

证：省略 $\lambda$ ， $o_1^t = o_1,o_2,...,o_t$ ， $O=o_1^T$
$\begin{aligned} P\left(i_{t}=q_{i}, O \mid \lambda\right) &=P\left(i_{t}=q_{i}, o_{1}^{t}, o_{t+1}^{T}\right) \\ &=P\left(i_{t}=q_{i}, o_{1}^{t}\right) P\left(o_{t+1}^{T} \mid i_{t}=q_{i}, o_{1}^{t}\right) \\ &=P\left(i_{t}=q_{i}, o_{1}^{t}\right) P\left(o_{t+1}^{T} \mid i_{t}=q_{i}\right) \\ &=\alpha_{t}(i) \beta_{t}(i) \\ P(O \mid \lambda) &=\sum_{j=1}^{N} \alpha_{T}(j) \\ P\left(i_{t}=q_{i} \mid O, \lambda\right) &=\frac{P\left(i_{t}=q_{i}, O \mid \lambda\right)}{P(O \mid \lambda)}=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{j=1}^{N} \alpha_{T}(j)} \end{aligned}$

对于某个状态，将所有时刻的状态占用概率相加，可认为是一个软次数，使用该软次数重新估计HMM参数：
$\begin{array}{c} \hat{\mu}_{j}=\frac{\sum_{t=1}^{T} \gamma_{t}(j) o_{t}}{\sum_{t=1}^{T} \gamma_{t}(j)} \\ \hat{\Sigma}_{j}=\frac{\sum_{t=1}^{T} \gamma_{t}(j)\left(o_{t}-\hat{\mu}_{j}\right)\left(o_{t}-\hat{\mu}_{j}\right)^{T}}{\sum_{t=1}^{T} \gamma_{t}(i)} \end{array}$
对比Viterbi算法(硬次数)：
$\hat{\mu}_{j}=\frac{\sum_{o_{t} \in Z_{j}} o_{t}}{\left|Z_{j}\right|} \\ \hat{\Sigma}_{j}=\frac{\sum_{o_{t} \in Z_{j}}\left(o_{t}-\hat{\mu}_{j}\right)\left(o_{t}-\hat{\mu}_{j}\right)^{T}}{\left|Z_{j}\right|}$
当GMM有多个分量

当 $b_{j}\left(o_{t}\right)=\sum_{m=1}^{M} c_{j m} \mathcal{N}\left(o_{t} ; \mu_{j m}, \Sigma_{j m}\right)$ 时，与前面类似，定义给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_{j}$ 且为GMM第 $k$ 个分量的概率为 $\zeta_{t}(j, k)$
$\begin{aligned} \zeta_{t}(j, k) &=P\left(i_{t}=q_{j}, m_{t}=k \mid 0, \lambda\right) \\ &=\frac{P\left(i_{t}=q_{j}, m_{t}=k, 0 \mid \lambda\right)}{P(O \mid \lambda)} \\ &=\frac{\sum_{i} \alpha_{t-1}(i) a_{i j} c_{j k} b_{j k}\left(o_{t}\right) \beta_{t}(j)}{\sum_{i=1}^{N} \alpha_{T}(i)} \end{aligned}$
则有
$\begin{array}{l} \hat{\mu}_{j k}=\frac{\sum_{t=1}^{T} \zeta_{t}(j, k) o_{t}}{\sum_{t=1}^{T} \zeta_{t}(j, k)} \\ \hat{\Sigma}_{j k}=\frac{\sum_{t=1}^{T} \zeta_{t}(j, k)\left(o_{t}-\hat{\mu}_{j k}\right)\left(o_{t}-\hat{\mu}_{j k}\right)^{T}}{\sum_{t=1}^{T} \zeta_{t}(j, k)} \\ \hat{c}_{j k}=\frac{\sum_{t=1}^{T} \zeta_{t}(j, k)}{\sum_{t=1}^{T} \sum_{k} \zeta_{t}(j, k)} \end{array}$
与状态占用概率类似，定义给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_{i}$ 且在时刻 $t + 1$ 处于状态 $q_{j}$ 的概率为 $\xi_{t}(\boldsymbol{i}, \boldsymbol{j})$ :
$\begin{aligned} \xi_{t}(i, j) &=P\left(i_{t}=q_{i}, i_{t+1}=q_{j} \mid 0, \lambda\right) \\ &=\frac{P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O \mid \lambda\right)}{P(O \mid \lambda)} \\ &=\frac{\alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j)}{\sum_{i=1}^{N} \alpha_{T}(i)} \end{aligned}$
且有 $\gamma_{t}(i)=\sum_{k=1}^{N} \xi_{t}(i, k)$
由该概率可得转移概率和初始概率：
$\begin{aligned} \hat{a}_{i j} &=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \sum_{k=1}^{N} \xi_{t}(i, k)}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \gamma_{t}(i)} \\ \hat{\pi}_{i} &=\gamma_{1}(i) \end{aligned}$
问题：证明 $\xi_{t}(i, j)=\frac{\alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j)}{\sum_{i=1}^{N} \alpha_{T}(i)}$

证：由前向公式的递推证明可知 $\alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right)=P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, o_{1}^{t+1} \mid \lambda\right)$
后向公式定义可知 $\beta_{t+1}(j)=P\left(o_{t+2}^{T} \mid i_{t+1}=q_{j}, \lambda\right)$
$\begin{aligned} P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, 0 \mid \lambda\right) &=P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, o_{1}^{t+1}, o_{t+2}^{T} \mid \lambda\right) \\ &=P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, o_{1}^{t+1} \mid o_{t+2}^{T}, \lambda\right) P\left(o_{t+2}^{T} \mid \lambda\right) \\ &=P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, o_{1}^{t+1} \mid \lambda\right) P\left(o_{t+2}^{T} \mid i_{t+1}=q_{j}, \lambda\right) \\ &=\alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j) \end{aligned}$

Baum-Welch学习算法总结

初始化GMM-HMM参数 $\lambda=\left(\pi_{i}, a_{i j},\left(c_{j m}, \mu_{j m}, \Sigma_{j m}\right)\right)$
E步：对所有时间 $t$ 、状态 $i$
递推计算前向概率 $\alpha_{t}(i)$ 和后向概率 $\beta_{t}(i)$
计算 $\zeta_{t}(j, k)=\frac{\sum_{i} \alpha_{t-1}(i) a_{i j} c_{j k} b_{j k}\left(o_{t}\right) \beta_{t}(j)}{\sum_{i=1}^{N} \alpha_{T}(i)}, \xi_{t}(i, j)=\frac{\alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j)}{\sum_{i=1}^{N} \alpha_{T}(i)}, \gamma_{t}(i)=\sum_{k=1}^{N} \xi_{t}(i, k)$

M步：更新参数

$\begin{aligned} \hat{\mu}_{j k} &=\frac{\sum_{t=1}^{T} \zeta_{t}(j, k) o_{t}}{\sum_{t=1}^{T} \zeta_{t}(j, k)} \\ \hat{\Sigma}_{j k} &=\frac{\sum_{t=1}^{T} \zeta_{t}(j, k)\left(o_{t}-\hat{\mu}_{j k}\right)\left(o_{t}-\hat{\mu}_{j k}\right)^{T}}{\sum_{t=1}^{T} \zeta_{t}(j, k)} \\ \hat{c}_{j k} &=\frac{\sum_{t=1}^{T} \zeta_{t}(j, k)}{\sum_{t=1}^{T} \sum_{k} \zeta_{t}(j, k)} \\ \hat{a}_{i j} &=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \sum_{k=1}^{N} \xi_{t}(i, k)}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \gamma_{t}(i)} \\ \hat{\pi}_{i} &=\gamma_{1}(i) \end{aligned}$
4. 重复2，3步，直到收敛

python实现

考虑盒子和球模型 $\lambda=(A, B, \pi)$ , 状态集合 $Q=\{1,2,3\}$ , 观测集合 ${ V=\{$ 红, 白 $\}$ ：
$A=\left[\begin{array}{lll}0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 & 0.5\end{array}\right], \mathrm{B}=\left[\begin{array}{cc}0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3\end{array}\right], \pi=(0.2,0.4,0.4)^{T}$
设 $T = 3, O = ($ 红，白, 红)

实现前向算法和后向算法，分别计算 $P(O|\lambda)$
实现Viterbi算法，求最优状态序列(最优路径)

前向算法：

公式：
初值：

$\alpha_1(i) = \pi_ib_i(o_1)，i=1,2,…,N $
递推：对 $t = 1, 2, . . ., T - 1$
$\alpha_{t+1}(i)=\left[\sum_{j=1}^{N} \alpha_{t}(j) a_{j i}\right] b_{i}\left(o_{t+1}\right)$
终止： $\mid \lambda)=\sum_{i=1}^{N} \alpha_{T}(i)$

def forward_algorithm(O, HMM_model):
    """HMM Forward Algorithm.
    Args:
        O: (o1, o2, ..., oT), observations
        HMM_model: (pi, A, B), (init state prob, transition prob, emitting prob)
    Return:
        prob: the probability of HMM_model generating O.
    """
    pi, A, B = HMM_model
    T = len(O)
    N = len(pi)
    prob = 0.0
    
    alphas = np.zeros((N, T))
    for t in range(T):
        for i in range(N):
            if t == 0:
                alphas[i][t] = pi[i] * B[i][O[t]]
            else:
                alphas[i][t] = np.dot([alpha[t-1] for alpha in alphas], [a[i] for a in A]) * B[i][O[t]]
    prob = np.sum([alpha[T-1] for alpha in alphas])
    
    return prob

后向算法：

初值： $\beta_{T}(i) = 1, i=1,2,...,N$

递推：对 $t = T - 1, T - 2, . . ., 1$
$\beta_{t}(i)=\sum_{j=1}^{N} a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j), \quad i=1,2, \cdots, N$
终止： $\mid \lambda)=\sum_{i=1}^{N} \pi_{i} b_{i}\left(o_{1}\right) \beta_{1}(i)$

def backward_algorithm(O, HMM_model):
    """HMM Backward Algorithm.
    Args:
        O: (o1, o2, ..., oT), observations
        HMM_model: (pi, A, B), (init state prob, transition prob, emitting prob)
    Return:
        prob: the probability of HMM_model generating O.
    """
    pi, A, B = HMM_model
    T = len(O)
    N = len(pi)
    prob = 0.0
    betas = np.zeros((N, T))
    for i in range(N):
        betas[i][0] = 1
    for t in range(1, T):
        for i in range(N):
            for j in range(N):
                betas[i][t] += A[i][j]*B[j][O[T-t]]*betas[j][t-1]
    
    for i in range(N):
        prob += pi[i]*B[i][O[0]]*betas[i][-1]
    
    return prob

Viterbi算法：

公式：

$\begin{aligned} \delta_{t+1}(i) &=\max _{i_1, i_2, \cdots, i_t} P\left(i_{t+1}=i, i_{t}, \cdots, i_{1}, o_{t+1}, \cdots, o_{1} \mid \lambda\right) \\ &=\max _{1 \leqslant j \leqslant N}\left[\delta_{t}(j) a_{j i}\right] b_{i}\left(o_{t+1}\right), \quad i=1,2, \cdots, N ; t=1,2, \cdots, T-1 \end{aligned}$

$\psi_{t}(i)=\arg \max _{1 \leqslant j \leqslant N}\left[\delta_{t-1}(j) a_{j i}\right], \quad i=1,2, \cdots, N$

def Viterbi_algorithm(O, HMM_model):
    """Viterbi decoding.
    Args:
        O: (o1, o2, ..., oT), observations
        HMM_model: (pi, A, B), (init state prob, transition prob, emitting prob)
    Returns:
        best_prob: the probability of the best state sequence
        best_path: the best state sequence
    """
    pi, A, B = HMM_model
    T = len(O)
    N = len(pi)
    best_prob, best_path = 0.0, []
    # Begin Assignment
    deltas = np.zeros((N,T), dtype=np.float64)
    nodes = np.zeros((N,T), dtype=np.int)
    for i in range(N):
        deltas[0][i] = pi[i]*B[i][0]
    for t in range(1, T):
        tmp = [deltas[t-1][j] * A[j][i] for j in range(N)]
        nodes[t][i] = int(np.argmax(tmp))
        deltas[t][i] = tmp[nodes[t][i]] * B[i][O[t]]
    best_path = np.zeros((T), dtype=np.int)
    best_path[T-1] = np.argmax(deltas[T-1])
    for t in range(T-2, -1, -1):
        best_path[t] = nodes[t+1][best_path[t+1]]
    # 
    best_prob = deltas[best_path[1]][best_path[-1]]
    # transform the state as index in python start from '0'
    best_path = [(val+1) for val in best_path]
   
    return best_prob, best_path