最近正在研究随机场,研究还不够透彻,只是了解了大概,做如下笔记用以日后内容扩充。
1. 随机场二要素:位置、时间(举个通俗点的例子就是:哪块地里种什么庄稼)
2. 马尔可夫随机场
在已知“现在”的条件下,“未来”与“过去”彼此独立的特性就被称为是马尔可夫性,具有这种性质的随机过程叫马尔可夫过程,其最原始的模型即一个马尔可夫链。
马尔可夫链的窗口为1,仅考虑上一个词,即N+1时刻的分布特性只与N时刻有关,我们称其为1-gram的。从词性标注的角度来考虑的话,就是当前词性仅和上一个词性有概率转移关系,而和其它位置的词性无关。它是对特征稀疏的折中。它以损失一定全局信息来换取更好的数据。
马尔可夫随机场,用种地的例子通俗地解释一下,就是任一块地里种的庄稼的种类仅与它邻近的地里种的庄稼种类有关系,则这些地里种的庄稼的集合就是一马尔可夫随机场。
3. 条件随机场
HMM中存在两个假设:(1)输出独立性假设;(2)马尔可夫性假设。要求序列数据严格相互独立才能保证推导的正确性。
而CRF用一种概率图模型,有表达长距离依赖和交叠性特征的能力,可较好解决标注(分类)偏置等问题。
CRF是一种判别式图模型,是给定了观察值集合的马尔可夫随机场;
MRF,即马尔可夫随机场,对应一个无向图,此无向图的节点对应随机变量,节点之间有边表示对应的变量之间有概率依赖关系。
3. CRF和HMM的区别和联系
(1)CRF就像是一个反向的隐马尔可夫模型,CRF和HMM都使用了马尔可夫链,作为隐含变量的概率转移模型。HMM用隐含变量生成可观测状态,生成概率由标注集统计得到,是一个生成模型。而CRF反过来通过可观测状态判别隐含变量,其概率也由标注集统计得到,是一个判别模型。CRF的本质其实就是:隐含变量的马尔科夫链(词性标签)+可观测状态的隐含变量的条件概率(具体的词语)。
(2) CRF和HMM都假设词性标注满足马尔可夫性。对于HMM,在标注集上统计得到概率转移矩阵这部分就算结束了。但是对于CRF,还需要在二维条件转移矩阵上增加一维词语特征。例如:当AB为相邻的两个词,A为动词且B单词的长度超过3时,B为名词的概率为**。
(3)以词性标注为例,讲述二者的区别:
对于HMM会直接统计词性到单词的条件概率矩阵,如“动词”生成“发射”的概率为1.5%,而生成“微软”的概率为0。对于每一种可能的词性序列结合与条件概率相乘就得到每一个候选序列的生成概率。
对于CRF,则发掘词语本身的特征,把每一个词语转化成一个一维特征向量,对每一个特征计算特征到词性的条件概率,这样每个词语到候选词性的条件概率即为所有特征条件概率的加和。