维特比算法在HMM和CRF中的应用

最新推荐文章于 2022-10-20 23:20:31 发布

Bernard_Yang

最新推荐文章于 2022-10-20 23:20:31 发布

阅读量397

点赞数

分类专栏： NLP 文章标签：算法动态规划人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_38224810/article/details/116287754

版权

NLP 专栏收录该内容

21 篇文章 5 订阅

订阅专栏

背景

维特比算法是一个通用的解码算法，是基于动态规划的求序列最短路径的方法。
一般应用场景为HMM（隐马尔可夫模型）或CRF 中的解码（decoding）问题，在HMM模型的解码问题中，给定模型 $\lambda=(A, B, \Pi)$ 和观测序列 $O=\left\{o_{1}, o_{2}, \ldots o_{T}\right\}$ , 求给定观测序列 $O$ 的条件下, 最可能出现的对应的状态序列 $I^{*}=\left\{i_{1}^{*}, i_{2}^{*}, \ldots i_{T}^{*}\right\}$ ,即 $P\left(I^{*} \mid O\right)$ 要最大化。
$I^{*} = \arg \max _{I} p(I^{*} \mid O)$
我们的目标是找到一个序列 $I$ 使其概率最大，该序列对应一个路径，维特比算法可以求解该路径。

动态规划算法需要找到合适的局部状态, 以及局部状态的递推公式。在HMM中, 维特比算法定义了两个局部状态用于递推。
第一个局部状态是在时刻 $t$ 到达隐藏状态为 $q_i$ 的所有可能的状态转移路径 $i_{1}, i_{2}, \ldots i_{t}$ 中的概率最大值。记为 $\delta_{t}(i)$ : 也就是观测变量
$\delta_{t}(i)=\max _{i_{1}, i_{2}, \ldots i_{t-1}} P\left(i_{t}=q_i, i_{1}, i_{2}, \ldots i_{t-1}, o_{t}, o_{t-1}, \ldots o_{1} \mid \lambda\right), i=1,2, \ldots N$
由 $\delta_{t}(i)$ 的定义可以得到 $\delta$ 的递推表达式 $:$
$\begin{aligned} \delta_{t+1}(j) &=\max _{i_{1}, i_{2}, \ldots i_{t}} P\left(i_{t+1}=q_j, i_{1}, i_{2}, \ldots i_{t}, o_{t+1}, o_{t}, \ldots o_{1} \mid \lambda\right) \\ &=\max _{1 \leq j \leq N}\left[\delta_{t}(i) a_{i j}\right] b_{j}\left(o_{t+1}\right) \end{aligned}$
$a_{i j}$ 表示从隐变量 $q_i$ 转移到 $q_j$ 的概率, $b_{j}(o_{t+1})$ 表示从隐变量 $q_j$ 发射到观测变量为 $o_{t+1})$ 的概率。
第二个局部状态由第一个局部状态递推得到。

定义在时刻 $t + 1$ 隐藏状态为 $q_i$ 的所有可能的状态转移路径 $\left(i_{1}, i_{2}, \ldots, i_{t-1}, i\right)$ 中概率最大的转移路径中，第 $t$ 个节点的隐藏状态为 $\Psi_{t+1}(i)$ ，其递推表达式可以表示为:
$\Psi_{t+1}(i)=\arg \max _{1<i<N}\left[\delta_{t}(j) a_{j i}\right]$

根据这两个局部状态从0时刻递推到T时刻，利用T时刻 $\Psi_{T}(i)$ 记录的前一个最可能的状态节点进行回溯，直到找到最优的隐藏状态序列。

算法流程

HMM

HMM概念

HMM有两个假设

齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态。
如果在时刻 $t$ 的隐藏状态是 $i_{t}=q_{i}$ ,在时刻 $t + 1$ 的隐藏状态是 $i_{t+1}=q_{j}$ , 则从时刻 $t$ 到时刻 $t + 1$ 的HMM状态转移概率 $a_{i j}$ 可以表示为:
$a_{i j}=P\left(i_{t+1}=q_{j} \mid i_{t}=q_{i}\right)$
这样 $a_{i j}$ 可以组成马尔科夫链的状态转移矩阵 $A$ :
$A=\left[a_{i j}\right]_{N \times N}$
N是每个时刻隐藏状态的个数
观测独立性假设。即任意时刻的观察状态只依赖于当前时刻的隐藏状态。
如果在时刻 $t$ 的隐藏状态是 $i_{t}=q_{j}$ , 而对应的观察状态为 $o_{t}=v_{k}$ , 则该时刻观察状态 $v_{k}$ 在隐藏状态 $q_{j}$ 下生成的概率为 $b_{j}(k)$ ,满足 :
$b_{j}(k)=P\left(o_{t}=v_{k} \mid i_{t}=q_{j}\right)$
这样 $b_{j}(k)$ 可以组成观测状态生成的概率矩阵 $B :$
$\boldsymbol{B}=\left[b_{j}(k)\right]_{N \times M}$
M是每个时刻观测状态的总个数。
除此之外，我们需要一组在时刻 $t = 1$ 的隐藏状态概率分布 $\Pi$ :
$\Pi=[\pi(i)]_{N} \text { 其中 } \pi(i)=P\left(i_{1}=q_{i}\right)$
一个HMM模型，可以由隐藏状态初始概率分布 $\Pi$ , 状态转移概率矩阵 $A$ 和观测状态概率矩阵 $B$ 决定。 $\Pi, A$ 决定状态序列， $B$ 决定观测序列。因此, HMM模型可以由一个三元组 $\lambda$ 表示如下:
$\lambda=(A, B, \Pi)$

Viterbi in HMM

输入： HMM模型 $\lambda=(A, B, \Pi)$ , 观测序列 $O=\left(o_{1}, o_{2}, \ldots o_{T}\right)$
输出：最有可能的隐藏状态序列 $I^{*}=\left\{i_{1}^{*}, i_{2}^{*}, \ldots i_{T}^{*}\right\}$

初始化局部状态:
$\begin{array}{c} \delta_{1}(i)=\pi_{i} b_{i}\left(o_{1}\right), \quad i=1,2 \ldots N \\ \Psi_{1}(i)=0, i=1,2 \ldots N \end{array}$
进行动态规划递推时刻 $\ldots T$ 时刻的局部状态:
$\begin{array}{l} \delta_{t}(i)=\max _{1 \leq j \leq N}\left[\delta_{t-1}(j) a_{j i}\right] b_{i}\left(o_{t}\right), \quad i=1,2 \ldots N \\ \Psi_{t}(i)=\arg \max _{1 \leq j \leq N}\left[\delta_{t-1}(j) a_{j i}\right], i=1,2 \ldots N \end{array}$
计算时刻 $T$ 最大的 $\delta_{T}(i)$ ,即为最可能隐藏状态序列出现的概率。 $i^*$ 即为时刻 $T$ 最可能的隐藏状态，令局部状态 $\Psi_T(i) = i_{T}^*$ 。
$\begin{array}{c} P *=\max _{1 \leq j \leq N} \delta_{T}(i) \\ i_{T}^{*}=\arg \max _{1 \leq j \leq N}\left[\delta_{T}(i)\right] \end{array}$
利用局部状态 $\Psi(i)$ 开始回溯。对于 $\ldots, 1$ :
$i_{t}^{*}=\Psi_{t+1}\left(i_{t+1}^{*}\right)$
最终得到最有可能的隐藏状态序列 $I^{*}=\left\{i_{1}^{*}, i_{2}^{*}, \ldots i_{T}^{*}\right\}$

Viterbi in CRF

输入：模型的 $K$ 个特征函数，和对应的 $K$ 个权重。
观测序列 $x=\left(x_{1}, x_{2}, \ldots x_{n}\right)$ , 可能的标记个数 $m$

输出：最优标记序列 $y^{*}=\left(y_{1}^{*}, y_{2}^{*}, \ldots y_{n}^{*}\right)$

初始化:
$\begin{array}{c} \left.\delta_{1}(l)=\sum_{k=1}^{K} w_{k} f_{k}\left(y_{0}=\text { start }, y_{1}=l, x, i\right)\right\}, l=1,2, \ldots m \\ \Psi_{1}(l)=\text { start }, l=1,2, \ldots m \end{array}$
对于 $\ldots n-1$ ,进行递推：
$\delta_{i+1}(l)=\max _{1 \leq j \leq m}\left\{\delta_{i}(j)+\sum_{k=1}^{K} w_{k} f_{k}\left(y_{i}=j, y_{i+1}=l, x, i\right)\right\}, l=1,2, \ldots m$
$\Psi_{i+1}(l)=\arg \max _{1 \leq j \leq m}\left\{\delta_{i}(j)+\sum_{k=1}^{K} w_{k} f_{k}\left(y_{i}=j, y_{i+1}=l, x, i\right)\right\}, l=1,2, \ldots m$
终止：
$y_{n}^{*}=\arg \max _{1 \leq j \leq m} \delta_{n}(j)$
回溯：
$y_{i}^{*}=\Psi_{i+1}\left(y_{i+1}^{*}\right), i=n-1, n-2, \ldots 1$
最终得到最优标记序列 $y^{*}=\left(y_{1}^{*}, y_{2}^{*}, \ldots y_{n}^{*}\right)$

Bernard_Yang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
维特比算法在HMM和CRF中的应用

背景维特比算法是一个通用的解码算法，是基于动态规划的求序列最短路径的方法。一般应用场景为HMM（隐马尔可夫模型）中的解码（decoding）问题，在HMM模型的解码问题中，给定模型 λ=(A,B,Π)\lambda=(A, B, \Pi)λ=(A,B,Π) 和观测序列 O={o1,o2,…oT}O=\left\{o_{1}, o_{2}, \ldots o_{T}\right\}O={o1,o2,…oT}, 求给定观测序列OOO的条件下, 最可能出现的对应的状态序列 I∗={i1∗,i2∗,…iT
复制链接

扫一扫