自然语言处理--HMM,MEMM,CRF中的decoding问题

最新推荐文章于 2022-12-11 15:20:28 发布

晚照

最新推荐文章于 2022-12-11 15:20:28 发布

阅读量491

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/shibianzhu9168/article/details/80952880

版权

自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

我们知道，这三张模型的decoding都是采用维特比算法，具体的实现过程又不一样，我们一个一个来看，其中有不少精妙处，值得细细评味。

HMM

这里就直接按统计学习方法里的写法了。
我们已经知道了 $(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$
定义在时刻t状态为i的所有单个路径(i_1,i_2,…,i_t)中概率最大值为

δ t (i) = m a x p (i t = i, i t - 1, . . ., i 1, o t, o . . ., o 1 | λ)

$\delta_t(i)=max p(i_t=i,i_{t-1},...,i_1,o_t,o...,o_1|\lambda)$
递推

δ t (i) = m a x [δ t - 1 (j) a j i] b i (o t)

$\delta_t(i)=max[\delta_{t-1}(j)a_{ji}]b_i(o_t)$
最后得到

P * = m a x δ T (i)

$P^*=max\delta_T(i)$

i * T = a r g m a x [δ T (i)]

$i_T^*=arg max[\delta_T(i)]$
这个

i∗T i T ∗ $i_T^*$ 正是我们想要的。
其实下面这张写法我更加喜欢。
定义

π(k,v)是以长度为k以v标签结尾的序列中最大概率的那一条 π ( k , v ) 是以长度为 k 以 v 标签结尾的序列中最大概率的那一条 $\pi(k,v)是以长度为k以v标签结尾的序列中最大概率的那一条$
我们的输入是一条观测序列

(x1,x2,...,xk), ( x 1 , x 2 , . . . , x k ) , $(x_1,x_2,...,x_k),$ 参数

q(s|v) q ( s | v ) $q(s|v)$ 和

e(x|s) e ( x | s ) $e(x|s)$ 就是我们见面HMM的那两个假设嘛。
定义

K K $K$ 为所有可能标签的集合。定义

K_{0} = {*}

$K_0=\{*\}$ ,

Kk=K K k = K $K_k=K$ ,

k=1,2,...n k = 1 , 2 , . . . n $k=1,2,...n$

π (k, v) = m a x u \in K k - 1 (π (k - 1, u) \times q (v | u) \times e (x k | v))

$\pi(k,v)=max_{u \in K_{k-1}} (\pi(k-1,u) \times q(v|u) \times e(x_k|v))$
注意我们要记录backpointer,(我也不知道怎么翻译这个)

b p (k, v) = a r g m a x u \in K k - 1 (π (k - 1, u) \times q (v | u) \times e (x k | v))

$bp(k,v)=arg max_{u \in K_{k-1}} (\pi(k-1,u) \times q(v|u) \times e(x_k|v))$
大家这里一定要注意， 我们要记录的是前一个时刻哪个状态让我们现时刻得到了最大概率。
大家看统计学习方法里的例题，肯定就明白了。

MEMM

我为什么上面说喜欢第二张写法呢，因为那样更具有一般性，比如这个遇到了MEMM，我们依然定义：

π [j, s] = m a x (p (s | s j - 1, x 1, . . ., x n) \prod k = 1 j - 1 p (s k | s k - 1, x 1, . . ., x m))

$\pi[j,s] = max (p(s|s_{j-1},x_1,...,x_n)\prod_{k=1}^{j-1}p(s_k|s_{k-1},x_1,...,x_m))$
你看，针对不同的模型，有不同的展开形式。但是这只是表，里并没有变。
递推形式是：

π [j, s] = m a x s' (π [j - 1, s'] \times p (s | s', x 1, . . ., x n)])

$\pi[j,s] =max_{s_{'}}(\pi[j-1,s^{'}]\times p(s|s_{'},x_1,...,x_n)])$
那

p(s|s′,x1,...,xn)]) p ( s | s ′ , x 1 , . . . , x n ) ] ) $p(s|s_{'},x_1,...,x_n)])$ 是什么，不就前面说的

p (s i | s i - 1, x 1, . . ., x n) = e x p ( w . ϕ ( x 1 , . . . , x n , i , s i - 1 , s i ) \sum e x p ( w . ϕ ( x 1 , . . . , x n , i , s i - 1 , s ' )

$p(s_i|s_{i-1},x_1,...,x_n)=\frac{exp(w.\phi(x_1,...,x_n,i,s_{i-1},s_i)}{\sum exp(w.\phi(x_1,...,x_n,i,s_{i-1},s^{'})}$
你看，核心是一样的，只不过针对你HMM,MEMM模型建模方式不一样，所以我这里展开的方式就要契合你们本身建模方式的不同。

CRF

CRF有一丢丢小不同，我开始觉得因为CRF它的建模不是HMM,MEMM那种“步进”式可能在DECODING的时候有点复杂，结果发现没有，还挺简单。
我们的目标是发现(今天真是打了不少的公式，唉，趁着周末有时间多打一点吧，上班就没有时间了)：

a r g m a x s \in S m = a r g m a x s \in S m e x p ( w . Φ ( x , s ) \sum s ' \in s m e x p ( w . Φ ( x , s ) ) = a r g m a x s \in S m e x p (w . Φ (x, s)) = a r g m a x s \in S m w . Φ (x, s) = a r g m a x s \in S m w . \sum j = 1 m ϕ (x, j, s j - 1, s j) = a r g m a x s \in S m \sum j = 1 m w . ϕ (x, j, s j - 1, s j)

$arg max_{s\in S^m}=arg max_{s\in S^m}\frac{exp(w.\Phi(x,s)}{\sum_{s^{'}\in s^m exp(w.\Phi(x,s))}} \\ =arg max_{s\in S^m} exp(w.\Phi(x,s)) \\ =arg max_{s\in S^m}w.\Phi(x,s) \\ =arg max_{s\in S^m}w.\sum_{j=1}^m\phi(x,j,s_{j-1},s_j)\\ =arg max_{s\in S^m}\sum_{j=1}^m w.\phi(x,j,s_{j-1},s_j)$
所以

sj−1 s j − 1 $s_{j-1}$ 到

sj s j $s_j$ 的转换关系为：