HMM->MEMM->CRF

最新推荐文章于 2022-12-02 11:23:06 发布

奋斗啊哈

最新推荐文章于 2022-12-02 11:23:06 发布

阅读量4.6k

点赞数 3

分类专栏：机器学习算法文章标签：算法

本文链接：https://blog.csdn.net/foolsnowman/article/details/50640928

版权

机器学习算法专栏收录该内容

17 篇文章 1 订阅

订阅专栏

1 相关概念

随机过程
马尔科夫随机过程
随机场
马尔科夫随机场联合概率分布 $P(Y)$ 可用无向图 $G(V,E)$ 表示，在图 $G$ 中，节点表示随机变量，边表示变量之间的依赖。如果该联合分布满足成对、局部、全局马尔科夫性，那么该联合分布称为概率无向图模型，或马尔科夫随机场（Markov radom field）. 图中节点之间的连接无方向限制，即没有强因果联系，只是表示软限制。
马尔科夫链
马尔科夫假设状态的转化只取决于相邻状态
隐马尔科夫 描述由隐藏的马尔科夫链（状态序列）生成观测序列的过程，属于生成模型。观测值只和产生它的状态有关，而条件随机场中观测值可以和产生它的状态及其前后两个状态有关，所以条件随机场是隐马尔科夫模型大的扩展。
条件随机场是给定随机变量 $X$ 的前提下，随机变量 $Y$ 的马尔科夫随机场。

2 HMM

属于概率生成模型

2.1 Why Hidden

是关于时序的概率模型，描述由隐马尔可夫链生成状态序列，每个状态生成一个观测由此生成观测序列的模型的过程。其中，t时刻的状态仅受t-1时刻的状态的影响，t时刻的观测仅受t时刻的状态的影响。

2.2 HMM模型的形式化定义

状态集合： $Q={q_1,...,q_N}$ 观测集合: $V={v_1,...,v_M}$
观测序列: $O={o_1,...,o_T}$ 状态序列: $I={i_1,...,i_T}$
HMM的三要素为：
1.初始状态概率向量: $\pi=(\pi_i)$
2.状态转移概率矩阵

A = [a i j] N * N

$A=[a_{ij}]_{N*N}$
3.状态生成观测概率矩阵

B = [b j (k)] N * M

$B=[b_j(k)]_{N*M}$

2.3 HMM的三个基本问题求解

概率计算
已知观测序列 $O={o_1,...,o_N}$ 和模型参数 $\lambda$ ，求 $p(o_1,...,o_N|\lambda)$
模型学习
已知观测序列 $O={o_1,...,o_N}$ ，求模型参数 $\lambda$ .极大似然函数为 $p=(O|\lambda)$ .
预测问题
已知观测序列 $O={o_1,...,o_N}$ 和模型参数 $\lambda$ ，求状态序列 $I$ .其中极大化的似然函数式 $p=(O|I)$ .

2.3.1 针对第一个问题

直接计算

p (I | λ) = π i 1 a i 1 . . . a i T (1)

$\begin{align} p(I|\lambda) =\pi _{i_1}a_{i_1}...a_{i_T} \end{align}$

p (O | I, λ) = b i 1 (o 1) . . . b i t (o t) (2)

$\begin{align} p(O|I,\lambda)&=b_{i_1}(o_1)...b_{i_t}(o_t) \end{align}$

p (O, I | λ) = p (O | I, λ) p (I | λ) = π i 1 b i 1 (o 1) \prod t = 2 T a i t b i t (o t) (3) (4)

$\begin{align} p(O,I|\lambda) &=p(O|I,\lambda)p(I|\lambda) \\ &=\pi _{i_1}b_{i_1}(o_1)\prod^T_{t=2}a_{i_t}b_{i_t}(o_t) \end{align}$
在

I I $I$ 上求和

\begin{aligned} (5) & p (O | λ) & = \sum_{I} p (O, I | λ) \\ (6) & = \sum_{I} π_{i_{1}} b_{i_{1}} (o_{1}) . . . a_{i_{T}} b_{i_{T}} (o_{T}) \end{aligned}

$\begin{align} p(O|\lambda) &=\displaystyle \sum_Ip(O,I|\lambda) \\ &=\displaystyle \sum_I\pi _{i_1}b_{i_1}(o_1)...a_{i_T}b_{i_T}(o_T) \end{align}$
计算复杂度为

O(TNT) O ( T N T ) $O(TN^T)$
Forward
1.初始化

α1(i)=πibi(o1) ,i=1,...,N t=1 α 1 ( i ) = π i b i ( o 1 ) , i = 1 , . . . , N t = 1 $\alpha_1(i)=\pi_ib_i(o_1) \ , i=1,...,N \ t=1$
2.

αt+1(j)=(∑i=1Nαt(i))bj(ot) , j=1,...,N α t + 1 ( j ) = ( ∑ i = 1 N α t ( i ) ) b j ( o t ) , j = 1 , . . . , N $\alpha_{t+1}(j)=(\displaystyle \sum ^N_{i=1}\alpha_t(i))b_j(o_t) \ , \ j=1,...,N$
3.

t=t+1 , t = t + 1 , $t=t+1 \ , \$ 如果

t<T t < T $t \lt T$ 继续执行步骤2，否则执行步骤4
4.

p(O|λ)=∑i=1NαT(i) p ( O | λ ) = ∑ i = 1 N α T ( i ) $p(O|\lambda)=\displaystyle \sum _{i=1}^N\alpha_T(i)$
其中，

αt(i)=p(o1,o2,...,Ot,qt=i|λ) α t ( i ) = p ( o 1 , o 2 , . . . , O t , q t = i | λ ) $\alpha_t(i)=p(o_1,o_2,...,O_t,q_t=i|\lambda)$ ,该算法的时间复杂度为

O(TN2) O ( T N 2 ) $O(TN^2)$

Backward
1.初始化 $\beta_T(i)=1 \ , \ i=1,...,N$
2. $\beta_{t-1}(j) =\displaystyle \sum_{i=1}^N a_{ij}b_j(o_{t})\beta_{t}(i), \ i=1,...,N$
3. $t=t-1,$ 如果 $t\gt1$ 继续执行步骤2，否则执行步骤4
4. $p(O|\lambda)=\displaystyle \sum _{i=1}^N\beta_1(i)$
其中， $\beta_t(i)=p(o_{t+1},o_{t+2},...,O_T,q_t=i|\lambda)$

2.3.2 针对第二个问题

p (I, O | λ) Q (λ, λ') = π i 1 b i 1 (o 1) a i 2 i 2 b i 2 (o 2) . . . a i T i T b i T (o T), i t = 1, 2, . . ., N = \sum i = 1 N ln π i p (I, O | λ') + \sum t = 2 T \sum I ln b i t (o i t) p (I, O | λ') + \sum t = 2 T \sum I ln a i t i t p (I, O | λ') (76) (77) (78)

$\begin{align} p(I,O|\lambda)&=\pi_{i_1}b_{i_1}(o_1)a_{i_2i_2}b_{i_2}(o_2)...a_{i_Ti_T}b_{i_T}(o_T) \ \ , \ i_t=1,2,...,N\\ Q(\lambda,\lambda')&=\displaystyle \sum_{i=1}^N\ln \pi_ip(I,O|\lambda')+\displaystyle \sum_{t=2}^T\displaystyle \sum_I\ln b_{i_t}(o_{i_t})p(I,O|\lambda') \\ &+\displaystyle \sum_{t=2}^T\displaystyle \sum_I\ln a_{i_ti_t}p(I,O|\lambda') \end{align}$
M步骤
分别求

Q Q $Q$ 对

λ = (π_{i}, a_{i_{t} i_{t}}, b_{i_{t}} (o_{t}))

$\lambda=(\pi_i,a_{i_ti_t},b_{i_t}(o_t))$ 的偏导数，并令它们等于零，从而解得参数

λ λ $\lambda$

2.3.3 针对第三个问题

近似算法
已知 $\lambda$ 、 $O$ ，在时刻t，状态 $i_t=q_i$ 的概率为：

r t (i) = p (i t = q i | O, λ) = p ( i t = q i , O | λ ) p ( O | λ )

$r_t(i)=p(i_t=q_i|O,\lambda)=\frac {p(i_t=q_i,O|\lambda)} {p(O|\lambda)}$
在问题一的前后向算法中，

αt(i)=p(o1,o2,...,Ot,qt=i|λ) α t ( i ) = p ( o 1 , o 2 , . . . , O t , q t = i | λ ) $\alpha_t(i)=p(o_1,o_2,...,O_t,q_t=i|\lambda) \$

βt(i)=p(ot+1,ot+2,...,OT,qt=i|λ) β t ( i ) = p ( o t + 1 , o t + 2 , . . . , O T , q t = i | λ ) $\ \beta_t(i)=p(o_{t+1},o_{t+2},...,O_T,q_t=i|\lambda)$ ,所以

r t (i) = p (i t = q i | O, λ) = α t ( i ) β t ( i ) p ( O | λ ) = α t ( i ) β t ( i ) \sum j = 1 N α t ( j ) β t ( j )

$r_t(i)=p(i_t=q_i|O,\lambda)=\frac {\alpha_t(i)\beta_t(i)} {p(O|\lambda)}=\frac {\alpha_t(i)\beta_t(i)} {\displaystyle \sum_{j=1}^N\alpha_t(j)\beta_t(j)}$
近似算法就是计算在每个时刻

t t $t$ 最可能出现的状态

i_{t}^{*}, t = 1, . . ., T

$i_t^* \ , t=1,...,T$ ，即求

i * t = a r g m a x i t r t (i)

$i_t^*= \mathop{ argmax }_{i_t}\ r_t(i)$
维特比算法
利用动态规划（Dynamic Programming）思想求概率最大的路径（状态序列），称为最优路径。如果最优路径在时刻

t t $t$ 的所取状态为

i_{t}^{*}

$i^*_t$ ,那么从时刻

1 1 $1$ 到时刻

t + 1

$t+1$ 的最优路径在时刻

t t $t$ 的所取状态也必须为

i_{t}^{*}

$i^*_t$ ，否则将存在矛盾。
为了方便说明维特比算法，首先定义两个变量

δt(i) δ t ( i ) $\delta_t(i)$ 、

ψt(i) ψ t ( i ) $\psi_t(i)$ ，

δt(i) δ t ( i ) $\delta_t(i)$ 表示在时刻

t t $t \$ ,状态为

i i $i$ 的最优路径的概率：

δ_{t} (i) = m a x p (i_{t} = i, i_{t - 1}, i_{t - 2}, . . ., i_{1}, o_{t}, o_{t - 1}, . . ., o_{1})

$\delta_t(i)=max \ p(i_t=i,i_{t-1},i_{t-2},...,i_1,o_t,o_{t-1},...,o_1)$

δ t + 1 (i) = m a x p (i t + 1 = i, i t, i t - 1, . . ., i 1, o t + 1, o t, . . ., o 1) = m a x 1 \leq j \leq N (δ t (j) a j i) b i (o t + 1) (10) (11)

$\begin{align} \delta_{t+1}(i)&=max \ p(i_{t+1}=i,i_{t},i_{t-1},...,i_1,o_{t+1},o_{t},...,o_1) \\ &=\mathop{ max }_{1\le j \le N}(\delta_t(j)a_{ji})b_i(o_{t+1}) \end{align}$

ψt(i) ψ t ( i ) $\psi_t(i)$ 表示在时刻

t t $t \$ ,状态为

i i $i$ 的最优路径的第

t - 1

$\ t-1 \$ 个状态：

ψ t (i) = a r g m a x 1 \leq j \leq N p (i t = i, i t - 1 = j, i t - 2, . . ., i 1, o t, o t - 1, . . ., o 1) (12)

$\begin{align} \psi_t(i)=\mathop{ argmax }_{1\le j \le N}p(i_t=i,i_{t-1}=j,i_{t-2},...,i_1,o_t,o_{t-1},...,o_1) \end{align}$
维特比算法的步骤如下：
1.初始化，

δ1(i)=πibi(o1),ψ1(i)=0 δ 1 ( i ) = π i b i ( o 1 ) , ψ 1 ( i ) = 0 $\delta_1(i)=\pi_ib_i(o_1),\psi_1(i)=0$
2.递推，t=2,3,…,T

δ t (i) = m a x 1 \leq j \leq N (δ t - 1 (j) a j i) b i (o t)

$\delta_{t}(i)=\mathop{ max }_{1\le j \le N}(\delta_{t-1}(j)a_{ji})b_i(o_{t})$

ψ t (i) = a r g m a x 1 \leq j \leq N (δ t - 1 (j) a j i)

$\psi_t(i)=\mathop{ argmax }_{1\le j \le N}(\delta_{t-1}(j)a_{ji})$ 3.停止，

pmax=max1≤i≤NδT(i) p m a x = m a x 1 ≤ i ≤ N ⁡ δ T ( i ) $p_{max}=\mathop{ max }_{1\le i \le N}\delta_{T}(i) \$ ,

i∗T=argmax1≤i≤NδT(i) i T ∗ = a r g m a x 1 ≤ i ≤ N ⁡ δ T ( i ) $i^*_T=\mathop{ argmax }_{1\le i \le N}\delta_{T}(i)$
4.回溯求最优路径，即概率最大状态序列，

t=T−1,T−2,...,1 t = T − 1 , T − 2 , . . . , 1 $t=T-1,T-2,...,1$

i * t = ψ t (i * t + 1)

$i_t^*=\psi_t(i_{t+1}^*)$ 最优序列为：

I = (i * 1, . . ., i * T)

$I=(i_1^*,...,i_T^*)$

3 MEMM

3.1 最大熵模型 Maximum Entropy

最大熵模型是判别模型.
假设满足所有约束条件的模型集合为

C={P|EP(fi)=EP̂ (fi),i=1,...,n} C = { P | E P ( f i ) = E P ^ ( f i ) , i = 1 , . . . , n }

$C=\{P|E_{P}(f_i)=E_{\hat P}(f_i) ,i=1,...,n\}$ 定义条件概率分布

P(Y|X) P ( Y | X ) $P(Y|X)$ 上的条件熵为

H (P) = - \sum X, Y P ̂ (x) P (y | x) log P (y | x)

$H(P)=-\displaystyle \sum_{X,Y} \hat P(x)P(y|x)\log P(y|x)$
注释：特征函数

fi f i $f_i$ 表示

X X $X$ 、

Y

$Y$ 满足的限制。

EP(fi)=EP̂ (fi) E P ( f i ) = E P ^ ( f i ) $E_{P}(f_i)=E_{\hat P}(f_i)$ 即为:

∑X,YP̂ (X,Y)f(x,y)=∑X,YP(Y|X)P̂ (X)f(x,y) ∑ X , Y P ^ ( X , Y ) f ( x , y ) = ∑ X , Y P ( Y | X ) P ^ ( X ) f ( x , y ) $\displaystyle \sum_{X ,Y}\hat P(X,Y)f(x,y)=\displaystyle \sum_{X,Y}P(Y|X)\hat P(X)f(x,y)$ ,其中，

P̂ (X,Y) P ^ ( X , Y ) $\hat P(X,Y)$ 、

P̂ (X) P ^ ( X ) $\hat P(X)$ 可以通过样本数据得到。
求解

H(P) H ( P ) $H(P)$ 的最大值，可得

P(Y|X) P ( Y | X ) $P(Y|X)$ ,推导省略。

P (Y | X) = 1 Z ( x ) e x p (\sum i = 1 N w i f i (x, y))

$P(Y|X)=\frac {1}{Z(x)}exp(\displaystyle \sum_{i=1}^Nw_if_i(x,y))$ 其中，

Z(x)=∑jexp(∑i=1Nwifi(x,y)) Z ( x ) = ∑ j e x p ( ∑ i = 1 N w i f i ( x , y ) ) $Z(x)=\displaystyle \sum_{j}exp(\displaystyle \sum_{i=1}^Nw_if_i(x,y))$

3.2 最大熵马尔科夫模型

将最大上模型和HMM模型结合成生成模型，在序列标注的任务中表现出比HMM模型、无序列的最大熵模型更好的性能，但是存在标注偏置的问题。
MEMM模型使用一个概率分布 $P(s|s’,o)=P_{s’}(s|o)$ 取代HMM中的 $P(s|s’)$ 、 $P(o|s)$ ,MEMM模型不仅可以表示观测之间的依赖，还可以表示当前观测和下一个状态之间的依赖。

模型定义

P s' (s | o) = 1 Z ( o , s ' ) e x p (\sum i = 1 N w i f i (o, s))

$P_{s’}(s|o)=\frac {1}{Z(o,s’)}exp(\displaystyle \sum_{i=1}^Nw_if_i(o,s))$ 其中，

O O $O$ 表示观测序列或需要标记的序列，

S

$S$ 表示状态序列或标记序列。

模型求解

标记偏置问题

4 条件随机场CRF

鉴于CRF与逻辑斯谛回归的关系（如下图），先简介逻辑斯谛模型。

(图片来自参考文献3)

4.1逻辑斯谛回归模型

线性回归模型用于预测输出为实数值的情形，而在分类模型中使用线性模型输出表示分类的概率时不能保证概率特性（如概率介于0、1之间），如下

P (y = t r u e | x) = w \cdot f

$P(y=true|x)=w\cdot f$ 但是使用线性输出结果可以表示不同分类发生的几率，

P ( y = t r u e | x ) P ( y = f a l s e | x ) = P ( y = t r u e | x ) 1 - P ( y = t r u e | x ) = w \cdot f

$\frac {P(y=true|x)}{P(y=false|x)}=\frac {P(y=true|x)}{1-P(y=true|x)}=w\cdot f$
上式等式两边的值域范围不同，使用自然对数解决这个问题

ln P ( y = t r u e | x ) 1 - P ( y = t r u e | x ) = w \cdot f

$\ln\frac {P(y=true|x)}{1-P(y=true|x)}=w\cdot f$
解上式得

P (y = t r u e | x) = e w \cdot f 1 + e w \cdot f = 1 1 + e - w \cdot f

$P(y=true|x)=\frac {e^{w\cdot f}}{1+e^{w\cdot f}}=\frac {1}{1+e^{-w\cdot f}}$

P (y = f a l s e | x) = 1 1 + e w \cdot f

$P(y=false|x)=\frac {1}{1+e^{w\cdot f}}$

11+e−w⋅f 1 1 + e − w ⋅ f $\frac {1}{1+e^{-w\cdot f}}$ 是逻辑斯谛函数，其一般形式为

11+e−x 1 1 + e − x $\frac {1}{1+e^{-x}}$ .
逻辑斯谛回归模型用于分类(classification,也称inference)的方法是通过计算不同类别的条件概率，如

y=true y = t r u e $y=true$ ,则有

P ( y = t r u e | x ) P ( y = f a l s e | x ) > 1

$\frac {P(y=true|x)}{P(y=false|x)}\gt 1$

e w \cdot f > 1

$e^{w\cdot f} \gt 1$

w \cdot f > 0

$w\cdot f \gt 0$

e w \cdot f > 1

$e^{w\cdot f} \gt 1$ 是

|w| | w | $|w|$ 维空间的超平面，所以使用超平面的判别问题在逻辑斯谛回归模型中借助了条件概率从比较概率大小的角度进行判别。
逻辑斯谛模型的求解
线性判别模型的参数学习通过缩小训练集上的误差平方和进行，逻辑斯谛模型参数的学习是通过最大化条件概率，即

w * = a r g m a x w \prod i P (y i | x i)

$w^*=\mathop{ argmax }_{w}\ \displaystyle \prod_{i}P(y_i|x_i)$ 等价于

w * = a r g m a x w \sum i log P (y i | x i)

$w^*=\mathop{ argmax }_{w}\ \displaystyle \sum_{i}\log P(y_i|x_i)$ 求解该最大值的方法有拟牛顿法、梯度下降等。
注释：逻辑斯谛回归可用于二分类问题中,而上面介绍的MEMM模型是多项逻辑斯谛模型，可用于K分类问题。

4.2条件随机场的定义

在给定随机变量 $X$ 的前提下，随机变量 $Y$ 构成马尔科夫随机场,该马尔科夫随机场可用无向图 $G(V,E)$ 表示。

P (Y v | X, Y w, v \neq w) = P (Y v | X, Y w, v w)

$P(Y_v|X,Y_w,v\ne w)=P(Y_v|X,Y_w,v~w)$ .当

X X $X$ 、

Y

$Y$ 为线性链时可定义线性链条件随机场，

P (Y i | X, Y 1, Y 2, . . ., Y i - 1, Y i + 1, . . . Y n) = P (Y i | X, Y i - 1, Y i + 1)

$P(Y_i|X,Y_1,Y_2,...,Y_{i-1},Y_{i+1},...Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$ .

4.3条件随机场的参数化形式

P (y | x) = 1 Z ( x ) e x p \sum k = 1 K w K f k (y, x)

$P(y|x)=\frac 1{Z(x)}exp\displaystyle \sum_{k=1}^Kw_Kf_k(y,x)$

Z (x) = \sum y e x p \sum k = 1 K w K f k (y, x)

$Z(x)=\displaystyle \sum_y exp\displaystyle \sum_{k=1}^Kw_Kf_k(y,x)$
条件随机场的矩阵表示

P (y | x) = 1 Z ( x ) \prod i = 1 n + 1 M i (y i - 1, y i | x)

$P(y|x)=\frac 1{Z(x)}\displaystyle \prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$

Z w (x) = (M 1 (x) M 2 (x) . . . M n + 1 (x)) s t a r t, s t o p

$Z_w(x)=(M_1(x)M_2(x)...M_{n+1}(x))_{start,stop}$

4.3 条件随机场的三个基本问题及求解

4.3.1 概率计算问题

给定条件随机场 $P(Y|X)$ 和观测序列，计算条件概率 $P(Y=y_i|X)$ 、 $P(Y=y_{i-1},Y=y_i|X)$ 以及相应的数学期望的问题。求解算法递归。

4.3.2 学习问题

根据训练数据求模型参数 $w$ 。学习策略是极大似然或正则化极大似然，学习算法的具体实现是改进的迭代尺度法、牛顿法、拟牛顿法。
已知训练数据的经验分布 $P(X,Y)$ ,条件概率分布 $P(X|Y)$ 的似然函数是：

L = \sum x, y P ̂ (x, y) l o g P w (y | x) = \sum x, y [P ̂ (x, y) \sum k = 1 K w k f k (y, x) - P ̂ (x, y) l o g Z w (x)] = \sum j = 1 N \sum k = 1 K w k f k (y j, x j) - \sum j = 1 N l o g Z w (x j) (13) (14) (15)

$\begin{align} L&=\displaystyle \sum_{x,y}\hat P(x,y)logP_w(y|x) \\ &=\displaystyle \sum_{x,y}[\hat P(x,y)\displaystyle \sum_{k=1}^Kw_kf_k(y,x)-\hat P(x,y)logZ_w(x)] \\ &=\displaystyle \sum_{j=1}^N\displaystyle \sum_{k=1}^Kw_kf_k(y_j,x_j)-\displaystyle \sum_{j=1}^NlogZ_w(x_j) \end{align}$

4.3.3 预测问题

给定条件随机场 $P(Y|X)$ 和观测序列，求最可能的标记序列。所用算法为维特比算法。

4.4 模型工具

CRF++

5 相关问题

MRF

MRF(Markov Radom Field)马尔科夫随机场，又称概率无向图模型，其联合分布为

HMM、MEMM、CRF模型比较

HMM模型中存在两个假设：一是输出观察值之间严格独立，二是状态的转移过程中当前状态只与前一状态有关(一阶马尔可夫模型)。
MEMM模型克服了观察值之间严格独立产生的问题，但是由于状态之间的假设理论，使得该模型存在标注偏置问题。
CRF模型解决了标注偏置问题，去除了HMM中两个不合理的假设，模型相应得也变复杂了。

6 相关算法小结

6.1 分类模式

分为两类：

生成模型

尝试对分布 $P(S|O)$ 建模，如利用贝叶斯公式 $P(S|O)=\frac {P(S,O)}{\sum_SP(O)}$ ,并据此生成样本。生成模型观测序列 $O$ 作为模型的一部分。如 HMM模型、贝叶斯。

判别模型

直接学习条件分布 $P(S|O)$ ，如逻辑斯谛回归模型、最大熵模型、最大熵马尔科夫模型（MEMM）、条件随机场(CRT)、SVM等。
判别模型观测序列 X <script type="math/tex" id="MathJax-Element-150">X</script>只是作为条件，所以可以针对观测序列建立灵活的特征函数。
关于生成模型和判别模型的更多阐述参看参考文献3.

其他

最大熵模型

参考文献

1.李航《统计学习方法》
2.Lafferty, etc”Conditional random fields: Probabilistic models for segmenting and labeling sequence data”. 2001.
3.An Introduction to Conditional Random Fields By Charles Sutton and Andrew McCallum
4.An introduction to natural language processing,computational linguistics, and speech recognition. Daniel Jurafsky etc. 2006 Chapter 6 HIDDEN MARKOV AND MAXIMUM ENTROPY MODELS