《统计自然语言处理》第六章笔记

最新推荐文章于 2022-08-12 16:17:28 发布

学习飞行的山药

最新推荐文章于 2022-08-12 16:17:28 发布

阅读量223

点赞数

分类专栏： NLP基础

本文链接：https://blog.csdn.net/Rosalind_Xu/article/details/101455624

版权

NLP基础专栏收录该内容

15 篇文章 1 订阅

订阅专栏

隐马尔可夫模型

马尔可夫模型

马尔可夫模型描述了什么？
马尔可夫模型描述了一个每个随机变量的值都依赖于这个序列的前面的状态的随机过程。
通常所说的马尔可夫模型是离散的一阶马尔科夫链，指的是系统在时间t下的状态，只与其在时间t-1时的状态有关系。
用数学关系式来描述就是： $P(q_t=s_j|q_{t-1}=s_i)=a_{ij}$
这里的 $a_{ij}$ 称之为状态转移概率。
马尔可夫模型可以视作转移弧上有概率的非确定性的有限自动机。
语言模型和马尔可夫模型之间的关系？
n元语言模型就是n-1阶马尔可夫模型。

隐马尔科夫模型

隐马尔科夫模型是什么？与马尔科夫模型有什么区别？
隐马尔可夫模型与马尔可夫模型的核心区别在于，后者可以观察到状态序列，而前者只能够观察到由状态发射的符号，然后再根据符号发射的概率去反推状态，换句话说，观察到的事件是状态随机函数。
隐马尔可夫模型的数学描述。
一个HMM用一个五元组表示： $\mu=(S,K,A,B,\pi)$
其中，S表示状态集合；K表示输出符号的集合；A为状态转移概率矩阵，有 $P(q_t=s_j|q_{t-1}=s_i)=a_{ij}$ ；B是状态发射符号的概率分布矩阵； $\pi$ 是初始状态的概率分布。
隐马尔科夫模型的基本问题或者说是应用场合。

给定观察序列和模型，估计观察到该序列的概率。
给定观察序列和模型，选择概率最高的状态序列来解释观察序列。
给定观察序列，如何确定模型的参数值。

Q1 前后向算法以及参数估计

基础思路

符号表示

$\pi$ 表示初始分布； $b_j(k)$ 表示由状态 $q_j$ 发射出符号 $o_k$ 的概率； $a_{q_iq_j}$ 表示由状态 $q_i$ 转移到状态 $q_j$ 的概率

公式推导

$P(O|\mu)=\sum_QP(O,Q|\mu)=\sum_QP(O|Q,\mu)P(Q|\mu)$

这里的连加号表示遍历每一种状态序列的可能性。

$P(Q|\mu)=\pi_{q_1}a_{q_1q_2}...a_{q_{T-1}q_T}$

$P(O|Q,\mu)=b_{q_1}(O_1)...b_{q_T}(O_T)$

公式非常简单，但是问题是遍历所有的状态序列需要的计算量过大以至于不可能实现。

前向算法

主要思路是使用动态规划的思想来减小时间复杂度。

核心定义为输出观察序列 $O_1...O_t$ 且状态为 $S_j$ 的概率， $a_t(j)$

核心状态转移公式为： $a_{t+1}(j)=\sum_{i=1}^Na_t(i)a_{ij}b_j(O_{t+1})$

最终结果为: $P(O|\mu)=\sum_{i=1}^Na_T(i)$

时间复杂度为： $O(N^2T)$

后向算法

主要思路同上，只不过是从后往前推导。

核心定义为输出观察序列 $O_{t+1}...O_T$ 且时间t时刻状态为 $s_j$ 的概率， $\beta_t(j)$

核心状态转移公式为： $\beta_t(i)=\sum_{j=1}^N a_{ij}b_j(O_{t+1})\beta_{t+1}(j)$

最终结果为： $P(O|\mu)=\sum_{i=1}^N \pi_i \beta_1(i)b_i(O_1)$
为什么书上没有乘b那部分？

前后向算法结合

Q2 维特比算法

问题重述

在给定模型 $\mu$ 和观察序列O的前提下，使得条件概率 $P(Q|\mu,O)$ 最大的状态序列，用式子表示即如下：
$\hat Q=argmax_Q P(Q|O,\mu)$

维特比算法

主要思路仍然是使用动态规划算法。

核心定义为 $\delta_t(i)$ ,含义为在时刻t时沿着某一条路径到达状态为 $s_i$ 并且输出序列为 $O_1...O_t$ 的最大概率。

核心状态转移公式为 $\delta_{t+1}(i)=argmax_j[\delta_t(j)a_{ji}]b_i(O_{t+1})$

最终结果为概率最大的路径，在推导过程中，使用变量保存路径。

Q3 HMM的参数估计

问题重述

给定观察序列O，调整模型 $\mu=(\pi,A,B)$ 的参数，从而使得 $P(O|\mu)$ 最大。用数学公式表达如下：
$argmax_{\mu} P(O|\mu)$

求解思想

期望最大化算法，即EM算法。
初始时随机给模型参数赋值，使用赋值之后的参数重新按照最大似然法更新参数，直至收敛。
适用于含有隐变量的统计模型的参数最大似然估计。

前向后向算法/Baum-Welch算法

具体实现或者说求解EM方法的算法。

核心定义为在时刻t时候位于状态 $s_i$ ，在时刻t+1时候位于状态 $s_j$ 的概率， $\xi_t(i,j)=P(q_t=s_i,q_{t+1}=s_j|O,\mu)=\frac{P(q_t=s_i,q_{t+1}=s_j,O|\mu)}{P(O|\mu)}=\frac{\alpha_t(i)a_{ij}b_j(O_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N \sum_{j=1}^N \alpha_t(i)a_{ij}b_j(O_{t+1})\beta_{t+1}(j)}$

那么，可以得到在时刻t位于状态 $s_i$ 的概率 $\gamma_t(i)=\sum_{j=1}^N \xi_t(i,j)$

可以重新估计 $\mu$ 的参数。

学习飞行的山药

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计自然语言处理》第六章笔记

隐马尔可夫模型马尔可夫模型马尔可夫模型描述了什么？马尔可夫模型描述了一个每个随机变量的值都依赖于这个序列的前面的状态的随机过程。通常所说的马尔可夫模型是离散的一阶马尔科夫链，指的是系统在时间t下的状态，只与其在时间t-1时的状态有关系。用数学关系式来描述就是：P(qt=sj∣qt−1=si)=aijP(q_t=s_j|q_{t-1}=s_i)=a_{ij}P(qt=sj∣qt−1...
复制链接

扫一扫