HMM经典介绍论文【Rabiner 1989】翻译（十七）——多观测序列

最新推荐文章于 2020-04-11 15:06:33 发布

Vic时代

最新推荐文章于 2020-04-11 15:06:33 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

69 篇文章 45 订阅

订阅专栏

5.2 多观测序列

在第4节我们讨论了左右HMM（Bakis模型），这种模型中状态按序从 $t=1$ 时的状态1移动到 $t-T$ 时的状态N。我们已经讨论了左右模型是怎么对状态转移矩阵施加约束的以及初始状态概率(45)-(48)。但是，左右模型的主要问题是不可能只用一个观测序列训练模型。这是因为模型中状态的瞬态性质允许状态被观察到有限几次，直到转移到后续状态。为了有足够的数据对模型参数进行可靠估计，我们必须使用多个观察序列。估计过程修改如下。我们定义 $K$ 个观测序列为

O = [O 1, O 2, \dots, O K] (106)

$\boldsymbol O = [ \boldsymbol O^1 , \boldsymbol O^2, \cdots, \boldsymbol O^K ] \tag{106}$

其中 $\boldsymbol O^k = [\boldsymbol O_1^k \boldsymbol O_2^k \cdots \boldsymbol O_{T_k}^k ]$ 是第 $k$ 个观测序列。我们假设每个观测序列和其他所有的观测序列之间是独立的，并且我们的目的是调整模型参数 $\lambda$ 以最大化

P (O | λ) = \prod k = 1 K P (O k | λ) = \prod k = 1 K P k, (107) (108)

$\begin{align} P(\boldsymbol O|\lambda) &= \prod_{k=1}^K P(\boldsymbol O^k | \lambda) \tag{107} \\\\ & = \prod_{k=1}^K P_k, \tag{108} \end{align}$
其中

Pk $P_k$ 是每个序列的概率，可以通过前向算法进行计算。

现在

γ k t (i) = P (q k t = S i | O, λ) = P (q k t = S i | O, λ) = α k t ( i ) β k t ( i ) P ( O k | λ ) = α k t ( i ) β k t ( i ) P k

$\begin{align} \gamma_t^k(i) &= P(q_t^k = S_i | \boldsymbol O, \lambda) \\\\ & = P(q_t^k = S_i | \boldsymbol O, \lambda) \\\\ & = \frac{\alpha_t^k(i) \beta_t^k(i)}{P(\boldsymbol O^k | \lambda)} \\\\ & = \frac{\alpha_t^k(i) \beta_t^k(i)}{P_k} \end{align}$

ξ k t (i, j) = P (q k t = S i, q k t + 1 = S j | O, λ) = P (q k t = S i, q k t + 1 = S j | O k, λ) = α k t ( i ) a i j b j ( O k t + 1 ) β k t + 1 ( j ) P ( O k , λ ) = α k t ( i ) a i j b j ( O k t + 1 ) β k t + 1 ( j ) P k

$\begin{align} \xi_t^k(i, j) &= P(q_t^k = S_i, q_{t+1}^k= S_j | \boldsymbol O, \lambda) \\\\ & = P(q_t^k = S_i, q_{t+1}^k= S_j | \boldsymbol O^k, \lambda) \\\\ &= \frac{\alpha_t^k(i)a_{ij}b_j(O_{t+1}^k) \beta_{t+1}^k(j) }{P(\boldsymbol O^k, \lambda)} \\\\ & = \frac{\alpha_t^k(i)a_{ij}b_j(O_{t+1}^k) \beta_{t+1}^k(j) }{P_k} \end{align}$

在参数估计表达式中，对单观测序列，分子分母中的 $P(O|\lambda)$ 项可以被消掉；但是对于多观测序列是没法消掉的。

于是修改后的估计公式为

a i j ¯ = \sum K k = 1 \sum T k - 1 t = 1 ξ k t ( i , j ) \sum K k = 1 \sum T k - 1 t = 1 γ k t ( i ) = \sum K k = 1 1 P k \sum T k - 1 t = 1 α k t ( i ) a i j b j ( O k t + 1 ) β k t + 1 ( j ) \sum K k = 1 1 P k \sum T k - 1 t = 1 α k t ( i ) β k t ( i ) (109)

$\begin{align} \bar{a_{ij}} &= \frac{\sum_{k=1}^K\sum_{t=1}^{T_k-1}\xi_t^k(i,j)}{\sum_{k=1}^K \sum_{t=1}^{T_k -1} \gamma_t^k(i)} \nonumber \\\\ &= \frac{ \sum_{k=1}^K \frac{1}{P_k} \sum_{t=1}^{T_k-1} \alpha_t^k(i)a_{ij}b_j(O_{t+1}^k) \beta_{t+1}^k(j) } { \sum_{k=1}^K \frac{1}{P_k} \sum_{t=1}^{T_k -1} \alpha_t^k(i) \beta_t^k(i) } \tag{109} \end{align}$

b j ¯ (l) = \sum K k = 1 \sum T k t = 1 , O k t = v l γ k t ( i ) \sum K k = 1 \sum T k t = 1 γ k t ( i ) = \sum K k = 1 1 P k \sum T k t = 1 , O t = v l α k t ( i ) β k t ( i ) \sum K k = 1 1 P k \sum T k t = 1 α k t ( i ) β k t ( i ) (110)

$\begin{align} \bar{b_j}(l) &= \frac{\sum_{k=1}^K \sum_{t=1, O_t^k=v_l}^{T_k} \gamma_t^k(i)}{\sum_{k=1}^K \sum_{t=1}^{T_k} \gamma_t^k(i)} \nonumber \\\\ &= \frac{ \sum_{k=1}^K \frac{1}{P_k} \sum_{t=1, O_t=v_l}^{T_k} \alpha_t^k(i)\beta_t^k(i) } { \sum_{k=1}^K \frac{1}{P_k} \sum_{t=1}^{T_k} \alpha_t^k(i) \beta_t^k(i) } \tag{110} \end{align}$

$\pi_i$ 不需要重新估计，因为 $\pi_1 = 1, \pi_i = 0, i\neq 1$ 。

(109)-(110)在实际中是不可行的，因为我们没有进行放大。进行放大后的估计公式为：

a i j ¯ = \sum K k = 1 1 P k \sum T k - 1 t = 1 [ α ^ k t ( i ) a i j b j ( O k t + 1 ) β ^ k t + 1 ( j ) ] / C k T \sum K k = 1 1 P k \sum T k - 1 t = 1 [ α ^ k t ( i ) β ^ k t ( i ) ] / ( c k t C k T ) = \sum K k = 1 \sum T k - 1 t = 1 α ^ k t ( i ) a i j b j ( O k t + 1 ) β ^ k t + 1 ( j ) \sum K k = 1 \sum T k - 1 t = 1 α ^ k t ( i ) β ^ k t ( i ) / c k t (111a)

$\begin {align} \bar{a_{ij}} &= \frac{ \sum_{k=1}^K \frac{1}{P_k} \sum_{t=1}^{T_k-1} \left[ {\hat \alpha}_t^k(i) a_{ij}b_j(O_{t+1}^k) {\hat \beta}_{t+1}^k(j) \right] / C_T^k } { \sum_{k=1}^K \frac{1}{P_k} \sum_{t=1}^{T_k -1} \left [ {\hat \alpha}_t^k(i) {\hat \beta}_t^k(i) \right] / (c_t^k C_T^k) } \nonumber \\\\ & = \frac{ \sum_{k=1}^K \sum_{t=1}^{T_k-1} {\hat \alpha}_t^k(i) a_{ij}b_j(O_{t+1}^k) {\hat \beta}_{t+1}^k(j)} { \sum_{k=1}^K \sum_{t=1}^{T_k -1} {\hat \alpha}_t^k(i) {\hat \beta}_t^k(i) / c_t^k } \tag{111a} \end{align}$
里用到了