一、基本概念
1、HMM 回顾
(1)HMM 模型基本结构
• HMM即隐马尔可夫模型,它是处理序列问题的统计学概率模型,描述的过程为:由隐 马尔科夫链随机生成不可观测的状态随机序列,然后各个状态分别生成一个观测,从而产生观测随机序列。
• 在这个过程中,不可观测的序列称为状态序列(state sequence), 由此产生的序列称 为观测序列(observation sequence)。
(2)HMM 模型参数 π A B
(3)HMM 模型的三个问题
• 概率计算问题 ------------- 前后项算法( 递推思想,在前面序列的概率的条件下计算当前时刻概率 )
• 模型学习问题 ------------- EM 算法(无监督)/ 直接统计(有监督)
• 解码问题 ------------- viterbi 算法(递推思想 寻址 最大可能概率 的状态路径)
1、条件场
• HMM假设当前状态仅和前一个状态有关,也就是具有一阶马尔 可夫性质,但是在很多场景中,模型不仅仅需要考虑前一个状态
的信息,也可能需要后一个状态的信息,因此需要模型提出更多 的假设条件,也就是引入图模型(当前状态和相连状态都有
关)+条 件模型(当前状态和观测值有关)=条件随机场。比如:”我爱中国”, 结构更加复杂,信息更加丰富。
随机场是由若干个位置组成的整体,当给每一个位置中按照某种 分布随机赋予一个值之后,其全体就叫做随机场。
eg:
假如我们有一个十个词形成的句子需要做词性标注。这十个词每个词的词性可 以在我们已知的词性集合(名词,动词...)中
去选择。当我们为每 个词选择完词性后,这就形成了一个随机场。
2、马尔科夫条件场
3、线性条件场(NLP通常所说的CRF)
条件随机场(Conditional Random Fields, 简称CRF)给定一组输入序 列条件下另一组输出序列的条件概率分布模型,在自然语言处理 中得到了广泛应用。最常见的的形式为: 线性链(Linear Chain) CRF。
线性CRF(简称CRF)是 马尔科夫条件场的一个特例
4、CRF(线性CRF)相对于 HMM 有哪些改变
1、模型直观区别
① crf 不仅仅有状态值影响观测值,而观测值也可以影响状态值;HMM观测值不可以影响状态值
② crf 状态值与 紧紧相邻的两个状态都相互影响(前后各一个);HMM符合一阶马尔科夫性质,状态值只受前一个状态影响。
③ crf 是无向图,HMM有向无环图
2、HMM ----》 MEMM ----》 crf
HMM 问题:假设 观测值只受隐藏状态影响,彼此之间相互独立。将设我们用HMM做词性标注,序列前一个词的 隐藏词
性 必然会影响当前词的词性,因而HMM的假设是不现实的,因此就出现了MEMM。
MEMM 优势:它打破了 HMM 观测值相互独立的缺点
MEMM 的问题:标签偏置问题。原因:局部归一化。为了解决这个缺点,推出了 crf
crf:它是一个无向图,采用的是全局归一化操作,它不会出现 label偏置问题,同时它保证了 观测值之间相互影响不独立 的现象。
5、 CRF应用场景理解
• 中文分词
• 词性标注
• 命名实体识别
• 语义角色标记 ----------- 语义分析/关系抽取(三元组)
• 事件提取
• 等等.....
备注:精度比 HMM 模型高,速度比 HMM 慢。
二、CRF三个问题推导
设X=(X1,X2,...,Xn)和Y=(Y1,Y2,....,Yn)均为线性链表示的随机变量序列, 在给定随机变量序列X的情况下,随机变量Y的条件概率分布P(Y|X) 就是条件随机场,即满足马尔可夫性质。