UCAS - AI学院 - 自然语言处理专项课 - 第6讲 - 课程笔记

最新推荐文章于 2020-06-03 00:40:43 发布

支锦铭

最新推荐文章于 2020-06-03 00:40:43 发布

阅读量290

点赞数

分类专栏： UCAS-课程笔记文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/cary_leo/article/details/105643171

版权

UCAS-课程笔记专栏收录该内容

37 篇文章 10 订阅

订阅专栏

UCAS-AI学院-自然语言处理专项课-第6讲-课程笔记

隐马尔可夫模型与条件随机场

隐马尔可夫模型与条件随机场

马尔可夫模型

马尔可夫模型描述：如果一个系统有 $N$ 个状态 $S_i$ ，随着时间的推移，该系统从某一个状态转移到另一个状态。如果 $t$ 时刻的状态变量为 $q_t$ ，则 $t$ 时刻状态值为 $S_j$ 的概率取决于前面所有时刻的状态，即 $p(q_t = S_j | q_{t - 1} = S_i, \dots)$
离散一阶马尔可夫链： $t$ 时刻状态只与 $t - 1$ 时刻状态有关，即 $p(q_t = S_j | q_{t - 1} = S_i)$
马尔可夫模型：满足不动性假设，状态与时间无关（但是与前一时刻状态有关）， $p(q_t = S_j | q_{t - 1} = S_i, \dots) = a_{ij}$
状态转移概率约束条件
- $a_{ij} \ge 0$
- $\sum_j a_{ij} = 1$
可以把马尔可夫模型视为随机的有限状态自动机，状态转换对应一个相应的概率
计算一个状态序列的概率：

$\begin{aligned} p(S_1, \dots, S_T) &= p(S_1) \cdot p(S_2 | S_1) \cdot p(S_3 | S_1, S_2) \cdot \ldots \cdot p(S_T | S_1, \dots, S_{T-1}) \\ &= p(S_1) \cdot p(S_2 | S_1) \cdot p(S_3 | S_2) \cdot \ldots \cdot p(S_T | S_{T-1}) \\ &= \pi_{S_1} \prod_{t = 1}^{T - 1} a_{S_t S_{t + 1}} \end{aligned}$

隐马尔可夫模型

双重随机过程，不知道具体状态序列，只知道状态转移的概率，可观察事件的随机过程是隐蔽状态转换过程的随机函数
HMM组成
- 模型中状态数为 $N$
- 每一个状态可能输出的符号数 $M$
- 状态转移概率矩阵 $A$ ， $a_{ij} = p(q_{t + 1} = S_j | q_t = S_i)$
- 状态到输出概率矩阵 $B$ ， $b_j(k) = p(O_t = v_k | q_t = S_j)$
- 初始概率分布 $\pi$ ， $\pi_i = p(q_1 = S_i)$
- 记为五元组 $\pi)$
从HMM到观察序列：开始状态——状态转移——输出——状态转移
给定HMM和观察序列，求序列概率 $\mu)$
- 前向算法
  - 定义前向变量 $\alpha_t(i) = P(O_1 \dots O_t, q_t = S_i | \mu)$
  - $\alpha_1(i) = \pi_i b_i(O_1)$
  - $\alpha_{t + 1}(j) = [\sum_i \alpha_t(i) \cdot a_{ij}] \cdot b_j(O_{t + 1})$
  - $p(O|\mu) = \sum_i \alpha_T(i)$
  - 时间复杂度 $O(N^2T)$
- 后向算法
  - 定义后向变量 $\beta_t(i) = p(O_{t + 1} \dots O_T | q_t = S_i, \mu)$
  - $\beta_T(i) = 1$
  - $\beta_t(i) = \sum_j a_{ij} b_j(O_{t + 1}) \cdot \beta_{t + 1}(j)$
  - $\mu) = \sum_i \beta_1(i) \cdot \pi_i \cdot b_i(O_1)$
  - 时间复杂度 $O(N^2T)$
给定HMM和观察序列，发现最优状态序列
- 最优：每个时刻 $\gamma_t(i) = p(q_t = S_i |O, \mu)$ 最大的 $q_t$
  - $p(q_t = S_i, O| \mu) = \alpha_t(i) \beta_t(i)$
  - $p(O|\mu) = \sum_i \alpha_t(i) \beta_t(i)$
  - $\gamma_t(i) = \frac {\alpha_t(i) \beta_t(i)}{\sum_i \alpha_t(i) \beta_t(i)}$
  - 最佳状态 $\hat q_t = \arg \max _i \gamma_t(i)$
  - 问题：单独状态最优不一定整个状态序列最优
- 最优：最大概率的状态序列 $\widehat Q = \arg \max_Q p(Q| O, \mu)$
  - Viterbi算法， $\delta_t(i) = \max p(q_1 \dots q_t = S_i, O_1 \dots O_t | \mu)$ ，到达 $S_i$ ，输出 $O$ 的最大概率
  - $\delta_1(i) = \pi_i b_i(O_1)$ ，路径变量 $\Psi_1(i) = 0$
  - $\delta_{t + 1}(i) = \max_j [\delta_t(j) \cdot a_{ji}] \cdot b_i(O_{t + 1})$ ， $\Psi_{t + 1}(i) = \arg \max_j [\delta_t(j) \cdot a_{ji}] \cdot b_i(O_{t + 1})$
  - $\widehat Q_T = \arg \max_j \delta_t(j)$ ， $\hat p(\widehat Q_T) = \max_j \delta_T(j)$
  - 时间复杂度 $O(N^2T)$
  - 提升搜索速度，剪枝策略
    - 只选择大于某一阈值的 $\delta$
    - 限制路径的个数（类似Beam Search）
  - 连乘溢出——取对数
给定观察序列，训练HMM参数，使得 $\mu)$ 最大——BW算法
- 大量样本
  - $\bar \pi_i = \delta(q_1, S_i)$
  - $\bar a_{ij} = \frac {\sum_t \delta(q_t, S_i) \cdot \delta(q_{t + 1}, S_j)}{\sum_t \delta(q_t, S_i)}$
  - $\delta(x, y)$ 为Kronecker函数，只在 $x = y$ 是取1，否则取0
  - $\bar b_j(k) = \frac {\sum_t \delta(q_t, S_j) \cdot \delta(O_t, v_k)}{\sum_t \delta(q_t, S_j)}$
- 样本不足——EM算法
  - 满足非负和归一化性质的随机初始化
  - E步，计算期望
  - $\xi_t(i, j) = p(q_t = S_i, q_{t + 1} = S_j | O, \mu) = \frac {p(q_t = S_i, q_{t + 1} = S_j, O | \mu)}{p(O | \mu)} = \frac {\alpha_t(i) a_{ij} b_i(O_{t + 1})\beta_{t + 1}(j)}{\sum_i \sum_j \alpha_t(i) a_{ij} b_i(O_{t + 1})\beta_{t + 1}(j)}$
  - $\gamma_t(i) = \sum_j \xi_t(i, j)$
  - M步，重新估计
  - $\pi_i = \gamma_1(i)$
  - $a_{ij} = \frac {\sum_t \xi_t(i, j)}{\gamma_t(i)}$
  - $b_j(k) = \frac{\sum_t \gamma_t(j) \cdot \delta(O_t, v_k)}{\sum_t \gamma_t(j)}$
  - 小数溢出——放大系数

隐马尔可夫模型的应用

汉语自动分词和词性标注
- 考虑的问题
  - HMM的状态、观察的数目
  - 参数估计
- 思路
  - 汉语分词的结果作为观察序列 $\widehat O = \arg \max_O p(O | \mu)$
  - 词性标注作为状态序列 $\widehat Q = \arg \max_Q p(Q | O, \mu)$
- 过程
  - 估计模型参数
  - 对于可能的输出序列，找到最大概率 $\mu)$ 候选
  - 快速选择最优状态序列
- 参数
  - 观察序列：单词序列
  - 状态序列：词类标记序列
  - 状态数目：词类标记符号个数
  - 输出符号数：每个状态可输出不同词汇的个数
- 参数估计
  - 无任何语料：无指导学习方法
    - 获取词类个数
    - 获取对应每种词类的词汇数
    - EM迭代
  - 存在大规模语料：有指导学习方法
    - 最大似然估计
- 获取观察序列
  - 借助其他分词工具获得nbest的可能切分
- 错误驱动修正参数
  - 一部分语料——训练模型
  - 模型——标注一部分新的语料
  - 新的语料标注——人工校对
  - 校对好的语料——训练模型
  - [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qDHqv4Uj-1587384099332)(assets/image-20200401014753740.png)]

条件随机场及其应用

基本思路：给定观察序列 $X$ ，输出标识序列 $Y$ ，通过计算 $P (Y ∣ X)$ 求解最优标注序列
定义：设无向图 $G = (V, E)$ ， $V$ 中每个结点对应一个随机变量 $Y_v$ ，其取值范围为集合 ${y\}$ 。如果以 $X$ 为条件，每个随机变量都满足马尔可夫特性：
- $$

其中 $\sim v$ 表示二者邻近，那么 $(X, Y)$ 就是一个条件随机场
序列问题就可以建模为简单的链式结构图，结点对应标记序列 $Y$ 中的元素
理论上如果具备一定的条件独立性，图结构可以是任意的
相比于HMM，内结点并不生成外结点，而是对外结点的标记，且可以受任意邻近结点的影响
给定观察序列，特定标记序列的概率定义为：
$$

p(Y|X) = \exp \left( \sum_j \lambda_j t_j(y_{i - 1}, y, X, i) + \sum_k \mu_k s_k (y_i, X, i) \right)
$$

其中
- $t_j(y_{i - 1}, y, X, i)$ 为转移函数， $i$ 及 $i - 1$ 位置上的标记的转移概率
- $s_k (y_i, X, i)$ 为状态函数， $i$ 位置上的标记概率
- $\lambda$ 和 $\mu$ 分别为权重
定义一组关于观察序列的二值特征 $b (X, i)$ ，表示训练样本特征的分布，当 $i$ 位置为某一特定词时记1，否则记0
对转移函数，如果 $y_{i - 1}$ 和 $y_i$ 满足某种搭配条件，记 $b (X, i)$ ，否则记0
状态函数改写 $s_k (y_i, X, i) = s_k (y_{i - 1}, y_i, X, i)$
特征函数统一表示为 $F_j(Y, X) = \sum _i f_j(y_{i - 1}, y_i, X, i)$
- 局部特征函数表示状态特征或转移函数
- 概率形式 $\lambda) = \frac 1 {Z(X)} \exp(\sum_j \lambda_j F_j(Y, X))$ ——类似最大熵！
- $Z (X)$ 是对 $Y$ 的归一化因子
解决问题
- 特征选取
- 参数训练
- 解码
应用：由字构词（基于字标注）的分词方法
- 基本思想：字的分类，每个字在构词时由构词位置（词首B、词中M、词尾E、单独成词S）
- 对所有子根据预定义特征进行词位特征学习，获得一个概率模型，在待切分串上，根据字间紧密程度，获得分类结果，最后根据词位定义直接获得最终的分词结果
- 特征选择
  - 一元特征（状态函数）：当前字
  - 二元特征（转移函数）：前一个字到当前字
- 参数训练
  - 使用训练语料训练权重，寻找标记序列，使 $P (Y ∣ X)$ 最大
  - BP？损失函数 $L(\lambda) - \log p(Y | X, \lambda) + \frac \epsilon 2 \lambda^2$
- 解码
  - Viterbi算法，寻找最优路径
  - 路径得分
    - 一元特征权重 $W$ ： $W_1^B$ 表示第1个字被标记为B的权重
    - 路径得分 $R$ ： $R_2^B$ 表示第二个字被标记为B时的路径得分
    - 转移特征权重 $T$ ： $T_BM$ 表示由B转移到M的权重
  - 迭代计算
    - $R_{i + 1}^B = \max \{T_{EB} \times R_i^E, T_{SB} \times R_i^S\} \times W_{i + 1}^B$
    - 以此类推
    - $W$ 包含当前状态特征以及前后的转移特征

支锦铭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
UCAS - AI学院 - 自然语言处理专项课 - 第6讲 - 课程笔记

UCAS-AI学院-自然语言处理专项课-第6讲-课程笔记隐马尔可夫模型与条件随机场马尔可夫模型隐马尔可夫模型隐马尔可夫模型的应用条件随机场及其应用隐马尔可夫模型与条件随机场马尔可夫模型马尔可夫模型描述：如果一个系统有NNN个状态SiS_iSi，随着时间的推移，该系统从某一个状态转移到另一个状态。如果ttt时刻的状态变量为qtq_tqt，则ttt时刻状态值为SjS_jSj的概率取决于前...
复制链接

扫一扫

专栏目录