分词算法模型学习笔记(一)——HMM

最新推荐文章于 2024-09-10 20:02:33 发布

烧煤的快感

最新推荐文章于 2024-09-10 20:02:33 发布

阅读量771

点赞数

分类专栏：机器学习文章标签：算法 nlp 人工智能概率论自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gg_18826075157/article/details/77982757

版权

机器学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

分词算法模型学习笔记(一)——HMM

Hidden Markov Model（HMM，隐马尔科夫模型）

主要参考资料：52nlp

1.HMM的特点

生成式模型

主要研究观察序列Ｘ和隐藏状态序列Y的联合概率分布P(X,Y)
通常为一阶马尔卡夫过程（即当前状态的概率分布只跟前一个状态有关）

P (X, Y) = P (Y) P (X | Y) = \prod t P (Y t | Y t - 1) P (X t | Y t)

$P(X,Y) = P(Y)P(X|Y) =\prod\limits_{t} P(Y_t|Y_{t-1})P(X_t|Y_t)$

HMM模型图示

2.HMM的三个基本用途

1.评估（比如语音识别）
计算某一观测序列Ｘ的出现概率

P (X) = \sum Y P (X, Y)

$P(X) = \sum\limits_{Y}P(X,Y)$

典型加速算法：前向算法、后向算法

２.解码（比如分词和词性标注）
对于某一观测序列X计算出使其出现概率最大的隐藏状态序列Y

a r g m a x Y P (Y | X) = a r g m a x Y P ( X , Y ) P ( X ) = a r g m a x Y P (X, Y)

$\mathop{argmax}\limits_{Y}P(Y|X) = \mathop{argmax}\limits_{Y}\frac{P(X,Y)}{P(X)} = \mathop{argmax}\limits_{Y}P(X,Y)$

典型加速算法：维特比算法

3.参数学习
基于EM算法的加速算法：前向-后向算法（Baum-Welch算法）

3.前向算法

计算目标：

P (X = x) = \sum y P (X 1 = x 1, \cdot \cdot \cdot, X t = x t, Y t = s i)

$P(X = x) = \sum\limits_{y}P(X_1=x_1,···,X_t=x_t,Y_t=s_i)$

如果直接利用上面的式子进行编程计算，需要枚举ｙ的所有取值（假设隐藏状态数目为|S|，ｙ则有 $|S|^T$ 个可能的取值），这种指数级的时间复杂度显然是行不通的。

下来我们考虑引入一个新的中间状态——通常称它为局部概率，从而避免大量不必要的计算（典型的动态规划策略）

α t (x, s i) = P (X 1 = x 1, \cdot \cdot \cdot, X t = x t, Y t = s i)

$\alpha_t(x,s_i) = P(X_1=x_1,···,X_t=x_t,Y_t=s_i)$

这个局部概率的含义可以解释为在对于所有以ｔ时刻 $s_i$ 结尾的隐藏状态跳转路径，它们产生观测序列 $x_1···x_t$ 的概率值之和。

算法步骤（时间复杂度为 $O|S|^2T$ )：

定义局部概率的初始值（边界值）

α 1 (x, s i) = P (Y 1 = s i) P (x 1 | s i)

$\alpha_1(x,s_i) = P(Y_1=s_i)P(x_1|s_i)$

利用状态转移方程迭代计算当t=1,···,T-1时的局部概率值

α t + 1 (x, s i) = [\sum j α t (x, s j) P (s i | s j)] P (x t + 1 | s i)

$\alpha_{t+1}(x,s_i) = \big[\sum\limits_{j}\alpha_t(x,s_j)P(s_i|s_j)\big]P(x_{t+1}|s_i)$

利用计算好了的局部概率值，得到我们的最终目标

P (x) = \sum j α T (x, s j)

$P(x) = \sum\limits_j\alpha_T(x,s_j)$

具体图例（隐藏状态数|S|=3，序列总长度T=4，t=1）：

前向算法

4.后向算法

后向算法的局部概率定义刚好跟前向算法恰好相反（值得注意的是前向算法使用的是联合概率，后向算法使用的是条件概率），但它们要解决的问题是一样的。

β t (x, s i) = P (X t + 1 = x t + 1, \cdot \cdot \cdot, X T = x T | Y t = s i)

$\beta_t(x,s_i) = P(X_{t+1}=x_{t+1},···,X_T=x_T|Y_t=s_i)$

其含义可以解释为在对于所有以ｔ时刻 $s_i$ 开头的隐藏状态跳转路径，它们产生观测序列 $x_{t+1}···x_T$ 的概率值之和。

算法步骤（时间复杂度为 $O|S|^2T$ )：

定义局部概率的初始值（边界值）

β T (x, s i) = 1

$\beta_{T}(x,s_i) = 1$

利用状态转移方程迭代计算当t=T-1,···,1时的局部概率值

β t (x, s i) = \sum j P (s j | s i) β t + 1 (x, s j) P (x t | s j)

$\beta_t(x,s_i) = \sum\limits_{j}P(s_j|s_i)\beta_{t+1}(x,s_j)P(x_t|s_j)$

利用计算好了的局部概率值，得到我们的最终目标

P (x) = \sum j P (Y 1 = s j) β 1 (x, s j) P (x t | s j)

$P(x) = \sum\limits_{j}P(Y_1=s_j)\beta_1(x,s_j)P(x_t|s_j)$

具体图例（隐藏状态数|S|=3，序列总长度T=4，t=3）：

后向算法

５.维特比算法

计算目标：

y^= a r g m a x y P (y, x)

$\hat{y} = \mathop{argmax}\limits_{y}P(y,x)$

同样地，为了避免枚举所有可能取值的ｙ，需要采取动态规划策略，引入中间状态 $\delta_t(x,s_i) = \mathop{max}\limits_{y_1···y_{t-1}}P(x_1,···,x_t,y_1,···,y_{t-1},Y_t=s_i)$
这个局部概率的含义可以解释为在所有以ｔ时刻 $s_i$ 结尾的隐藏状态跳转路径中，产生观测序列 $x_1···x_t$ 的最大概率值。
同时因为要求的是这个概率值最大的隐藏状态序列本身，而不是它的概率值，因此还需要一个回退指针变量 $\psi$ 用于记录状态的转移情况。

算法步骤（时间复杂度为 $O|S|^2T$ )：

定义局部概率的初始值（边界值）

δ 1 (x, s i) = P (Y 1 = s i) P (x 1 | s i)

$\delta_1(x,s_i) = P(Y_1=s_i)P(x_1|s_i)$

利用状态转移方程迭代计算当t=1,···,T-1时的局部概率值

δ t + 1 (x, s i) = m a x s j [δ t (x, s j) P (s i | s j)] P (x t + 1 | s i)

$\delta_{t+1}(x,s_i) = \mathop{max}\limits_{s_j}[\delta_t(x,s_j)P(s_i|s_j)]P(x_{t+1}|s_i)$

ψ t (x, s i) = a r g m a x s j [δ t (x, s j) P (s i | s j)]

$\psi_{t}(x,s_i) = \mathop{argmax}\limits_{s_j}[\delta_t(x,s_j)P(s_i|s_j)]$

利用计算好了的局部概率值，确定回退起点

y T^= a r g m a x s j δ T (x, s j)

$\hat{y_T} =\mathop{argmax}\limits_{s_j}\delta_T(x,s_j)$

利用回退指针变量 $\psi$ ，逐个确定目标序列(t = T-1,···,1)

y t^= ψ t (x, y t + 1^)

$\hat{y_t} =\psi_t(x,\hat{y_{t+1}})$

具体图例（隐藏状态数|S|=3，序列总长度T=4）：

维特比算法

６.前向-后向算法

未完待续。。。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。