HMM经典介绍论文【Rabiner 1989】翻译（十六）——放大

最新推荐文章于 2019-08-29 17:09:12 发布

Vic时代

最新推荐文章于 2019-08-29 17:09:12 发布

阅读量2.5k

点赞数 2

分类专栏：机器学习

机器学习专栏收录该内容

69 篇文章 45 订阅

订阅专栏

5 HMM的实现问题

前面两节的讨论主要是关于HMM的理论以及模型的变体。这一节我们会讨论HMM的实现问题，包括放大、多观测序列、初始参数估计、数据丢失、模型大小以及类型的选择。对其中一些实现问题，我们可得到精确解析解；而对于其他问题，我们只能给出一些经验建议。

5.1 放大

为了理解在HMM参数估计过程中为什么需要放大，考虑(18)中定义的 $\alpha_t(i)$ 。可以看到 $\alpha_t(i)$ 包含很多项的和，每一项的形式为

(\prod s = 1 t - 1 a q s q s + 1 \prod s = 1 t b q s (O s)),

$\left( \prod_{s=1}^{t-1} a_{q_s q_{s+1}} \prod_{s=1}^t b_{q_s}(\boldsymbol O_s) \right ),$

其中 $q_t =S_i$ 。由于每个 $a$ 和 $b$ 项是小于1的（一般是远小于1的），所以当 $t$ 变得比较大时（比如10或者更多）， $\alpha_t(i)$ 的每一项开始趋向于0。对非常大的 $t$ （100或者更多）， $\alpha_t(i)$ 计算的动态范围会超出机器的精度范围（甚至是双精度）。所以，唯一有效的计算方式是结合一个放大过程。

基本的放大步骤是把 $\alpha_t(i)$ 乘以一个放大系数并且这个放大系数是独立于 $i$ 的（即只依赖于t），使得放大后的 $\alpha_t(i)$ （ $1\leq t \leq T$ ）位于计算机的动态范围中。对 $\beta_t(i)$ 也要进行一个相似的放大步骤，在计算的最后，需要消掉放大系数。

为了更好地理解放大过程，考虑状态转移系数 $a_{ij}$ 的估计公式。如果我们把估计公式(41)直接写成前向变量和后项变量的形式。可以得到

a ¯ i j = \sum T - 1 t = 1 α t ( i ) a i j b j ( O t + 1 ) β t + 1 ( j ) \sum T t = 1 \sum N j = 1 α t ( i ) a i j b j ( O t + 1 ) β t + 1 ( j ) . (90)

${\bar a}_{ij} = \frac{ \sum_{t=1}^{T-1} \alpha_t(i)a_{ij}b_j(O_{t+1})\beta_{t+1}(j) }{ \sum_{t=1}^T \sum_{j=1}^N \alpha_t(i)a_{ij}b_j(O_{t+1}) \beta_{t+1}(j) }. \tag{90}$

（原文中的符号表示有些混乱，下面做了些修改。）

首先令 ${\bar \alpha}_1(i) = \alpha_1(i)$ 。

对每个 $t$ ，我们首先根据递推公式(20)计算 ${\bar \alpha}_t(i)$ ，然后乘以一个放大系数 $c_t$ ：

c t = 1 \sum N i = 1 α ¯ t ( i ) . (91)

$c_t = \frac{1}{ \sum_{i=1}^N {\bar \alpha}_t(i) }. \tag{91}$

于是，对固定的 $t$ ，我们首先计算

α ¯ t (i) = \sum j = 1 N α^t - 1 (j) a j i b i (O t) . (92a)

${\bar \alpha}_t(i) = \sum_{j=1}^N {{\hat \alpha}_{t-1}}(j) a_{ji} b_i(O_t). \tag{92a}$

然后计算放大 ${\hat \alpha}_t(i)$ ：

α^t (i) = α ¯ i \sum N i = 1 α ¯ i = \sum N j = 1 α ^ t - 1 ( j ) a j i b i ( O t ) \sum N i = 1 \sum N j = 1 α ^ t - 1 ( j ) a j i b i ( O t ) . (92b)

${\hat \alpha}_t(i) = \frac{{\bar \alpha}_i}{\sum_{i=1}^N {\bar \alpha}_i} = \frac{ \sum_{j=1}^N {{\hat \alpha}_{t-1}}(j) a_{ji} b_i(O_t)}{ \sum_{i=1}^N \sum_{j=1}^N {{\hat \alpha}_{t-1}}(j) a_{ji} b_i(O_t)}. \tag{92b}$

通过递推，可以把 ${\hat \alpha}_{t-1}(j)$ 写成

α^t - 1 (j) = [\prod τ = 1 t - 1 c τ] α t - 1 (j) . (93a)

${\hat \alpha}_{t-1}(j) =\left[ {\prod_{\tau=1}^{t-1} c_{\tau}} \right] \alpha_{t-1}(j).\tag{93a}$

于是有

α^t (i) = \sum N j = 1 α t - 1 ( j ) ( \prod t - 1 τ = 1 c τ ) a i j b j ( O t ) \sum N i = 1 \sum N j = 1 α t - 1 ( j ) ( \prod t - 1 τ = 1 c τ ) a i j b j ( O t ) = α t ( i ) \sum N i = 1 α t ( i ) . (93b)

${\hat \alpha}_t(i) = \frac{\sum_{j=1}^N \alpha_{t-1}(j) \left( \prod_{\tau=1}^{t-1} c_{\tau} \right) a_{ij}b_j(O_t) } { \sum_{i=1}^N \sum_{j=1}^N \alpha_{t-1}(j)\left( \prod_{\tau=1}^{t-1}c_{\tau} \right) a_{ij} b_j(O_t) } = \frac{\alpha_t(i)}{\sum_{i=1}^N \alpha_t(i)} \tag{93b}.$

下一步我们用后向地推计算 $\beta_t(i)$ 。这里我们在每个 $t$ 上仍然使用计算 $\alpha$ 时用的放大因子。于是放大后的 $\beta$ 是

β^t (i) = c t β ¯ t (i) . (94)

${\hat \beta}_t(i) = c_t {\bar \beta}_t(i). \tag{94}$

因为每个放大因子把 $\alpha$ 放大到和为1，由于 $\alpha$ 和 $\beta$ 项的值是相近的，使用同样的放大因子可以把 $\beta$ 放大到有效范围。而且，参数估计公式(90)现在变成

a ¯ i j = \sum T - 1 t = 1 α ^ t ( i ) a i j b j ( O t + 1 ) β ^ t + 1 ( j ) \sum T - 1 t = 1 \sum N j = 1 α ^ t ( i ) a i j b j ( O t + 1 ) β ^ t + 1 ( j ), (95)

${\bar a}_{ij} = \frac{ \sum_{t=1}^{T-1} {\hat \alpha}_t(i)a_{ij}b_j(O_{t+1}){\hat \beta}_{t+1}(j) }{ \sum_{t=1}^{T-1} \sum_{j=1}^N {\hat \alpha}_t(i)a_{ij}b_j(O_{t+1}) {\hat \beta}_{t+1}(j) }, \tag{95}$

而每个 ${\hat \alpha}_t(i)$ 可以写成

α^t (i) = [\prod s = 1 t c s] α t (i) = C t α t (i) (96)

${\hat \alpha}_{t}(i) = \left[ {\prod_{s=1}^{t} c_{s}} \right] \alpha_{t}(i) = C_t \alpha_t(i) \tag{96}$

每个 ${\hat \beta}_{t+1}(j)$ 可以写成

β^t + 1 (j) = [\prod s = t + 1 T c s] β t + 1 (j) = D t + 1 β t + 1 (j) . (97)

${\hat \beta}_{t+1}(j) = \left[ \prod_{s=t+1}^T c_s \right] \beta_{t+1}(j) = D_{t+1}\beta_{t+1}(j). \tag{97}$

于是(95)可以写成

a ¯ i j = \sum T - 1 t = 1 C t α t ( i ) a i j b j ( O t + 1 ) D t + 1 β t + 1 ( j ) \sum T - 1 t = 1 \sum N j = 1 C t α t ( i ) a i j b j ( O t + 1 ) D t + 1 β t + 1 ( j ), (98)

${\bar a}_{ij} = \frac{ \sum_{t=1}^{T-1} C_t { \alpha}_t(i)a_{ij}b_j(O_{t+1})D_{t+1}{\beta}_{t+1}(j) }{ \sum_{t=1}^{T-1} \sum_{j=1}^N C_t {\alpha}_t(i)a_{ij}b_j(O_{t+1}) D_{t+1}{\beta}_{t+1}(j) }, \tag{98}$

而 $C_tD_{t+1}$ 项可以写作

C t D t + 1 = \prod s = 1 t c s \prod s = t + 1 T c s = \prod s = 1 T c s = C T (99)

$C_tD_{t+1} = \prod_{s=1}^t c_s \prod_{s=t+1}^T c_s = \prod_{s=1}^T c_s = C_T \tag{99}$

和 $t$ 无关。于是(98)分子分母中的 $C_tD_{t+1}$ 抵消了，得到的结果就是(90)对应的准确结果。（虽然是用放大后的 $\hat \alpha$ 进行计算的，但得到的结果竟然和真实值一样！）

显然，上面的放大过程同样适用于 $\pi$ 和 $B$ 的估计。缩放过程(92)不需要在每个时刻 $t$ 都要执行，而是可以在需要或必要（比如防止下溢）的时候才执行。如果某时刻 $t$ 没有进行放大，只要把放大系数 $c_t$ 设置成1，然后上面讨论的所有条件都满足。

由放大导致的唯一变化是 $P(O|\lambda)$ 的计算过程。我们不能只对 ${\hat \alpha}_T(i)$ 进行求和，因为这些值是放大后的值。但是我们可以利用性质

\prod t = 1 T c t \sum i = 1 N α T (i) = C T \sum i = 1 N α T (i) = 1. (100)

$\prod_{t=1}^T c_t \sum_{i=1}^N \alpha_T(i)= C_T \sum_{i=1}^N \alpha_T(i) = 1. \tag{100}$

于是有

\prod t = 1 T c t \cdot P (O | λ) = 1 (101)

$\prod_{t=1}^T c_t \cdot P(O|\lambda) =1\tag{101}$

P (O | λ) = 1 \prod T t = 1 c t (102)

$P(O|\lambda) =\frac{1}{\prod_{t=1}^Tc_t} \tag{102}$

log [P (O | λ)] = - \sum t = 1 T log c t . (103)

$\log [P(O|\lambda)] = - \sum_{t=1}^T \log c_t. \tag{103}$

于是得到 $P$ 的log值，但是不是 $P$ ，这是因为后者可能会超出计算机的动态范围。

最后我们注意到当使用Viterbi算法来得到似然最大的状态序列时，如果我们按下面的算法计算那么不需要放大过程。定义

ϕ t (i) = max q 1, q 2, \dots, q t log P [q 1 q 2 \dots q t, O 1 O 2 \dots O t | λ], (104)

$\phi_t(i) = \max_{q_1,q_2, \cdots, q_t} \\{ \log P[q_1 q_2\cdots q_t, O_1O_2\cdots O_t| \lambda] \\} \tag{104},$

初始值

ϕ 1 (i) = log (π i) + log [b i (O 1)], (105a)

$\phi_1(i) = \log (\pi_i) +\log [b_i(O_1)] \tag{105a},$

递推步骤

ϕ t (j) = max 1 \leq I l e q N [ϕ t - 1 (i) + log a i j] + log [b j (O t)] (105b)

$\phi_t(j) = \max{1\leq I leq N} [\phi_{t-1}(i) +\log a_{ij} ] + \log[b_j(O_t)] \tag{105b}$

以及终止步骤

log P * = max 1 \leq i \leq N [ϕ T (i)] . (105c)

$\log P^* = \max_{1\leq i \leq N} [\phi_T(i)]. \tag{105c}$

这样我们得到 $\log P^*$ 而非 $P^*$ ，而计算量大大减少了并且没有数值问题。读者应该注意到(105b)中的 $\log a_{ij}$ 项可以事先计算。并且，当观测值有限时 $\log [b_j(O_t)]$ 项也可以事先计算。

Vic时代

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
HMM经典介绍论文【Rabiner 1989】翻译（十六）——放大

5 HMM的实现问题前面两节的讨论主要是关于HMM的理论以及模型的变体。这一节我们会讨论HMM的实现问题，包括放大、多观测序列、初始参数估计、数据丢失、模型大小以及类型的选择。对其中一些实现问题，我们可得到精确解析解；而对于其他问题，我们只能给出一些经验建议。5.1 放大为了理解在HMM参数估计过程中为什么需要放大，考虑(18)中定义的αt(i)\alpha_t(i)。可以看到αt(i)\alpha
复制链接

扫一扫

专栏目录