Task4条件随机场CRF
条件随机场概述
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。
CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理(Natural Language Processing, NLP)、 生物信息学、机器视觉及网络智能等领域。
与条件随机场相关的各模型之间的关系
1 产生式模型和判别式模型( Generative model vs Discriminative model )
1.1 模型简介
假设有两个序列,分别为观察序列o和标记序列s
-
产生式模型:构建o和s的联合分布p(s,o),可以根据联合概率来生成样本,如HMM,BNs,MRF。
-
无穷样本->概率密度模型=产生模型->预测
-
判别式模型:构建o和s的条件分布p(s|o),因为没有s的知识,无法生成样本,只能判断分类,如SVM,CRF,MEMM。
-
有限样本->判别函数=预测模型->预测
1.2 模型比较
Generative model :从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度,不关心判别边界。
- 优点:
实际上带的信息要比判别模型丰富,研究单类问题比判别模型灵活性强能更充分的利用先验知识
模型可以通过增量学习得到 - 缺点:
学习过程比较复杂
在目标分类问题中易产生较大的错误率
Discriminative model :寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。
- 优点:
分类边界更灵活,比使用纯概率方法或生产模型得到的更高级。能清晰的分辨出多类或某一类与其他类之间的差异特征。在聚类、viewpoint changes, partial occlusion and scale variations中的效果较好适用于较多类别的识别 - 缺点:
不能反映训练数据本身的特性。
能力有限,可以告诉你的是1还是2 ,但没有办法把整个场景描述出来。
1.3 模型之间的关系
二者关系:由生成模型可以得到判别模型,但由判别模型得不到生成模型。
2 概率图模型( Graphical Models )
概率图模型:是一类用图的形式表示随机变量之间条件依赖关系的概率模型是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假设。
根据图中边有无方向。常用的概率图模型分为两类:
- 有向图:最基本的是贝叶斯网络(Bayesian Networks ,BNs)
eg:
- 无向图:马尔可夫随机场(Markov Random Fields, MRF)
马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量,这些变量之间的关系用无向图来表示。
eg:
有向图模型和无向图模型的对比 - 1共同之处
将复杂的联合分布分解为多个因子的乘积 - 2不同之处
无向图模型因子是势函数,需要全局归一
有向图模型因子是概率分布、无需全局归一 - 3优缺点
无向图模型中势函数设计不受概率分布约束,设计灵活,但全局归代价高有向图模型无需全局归一、训练相对高效
3 朴素贝叶斯分类器( Naive Bayes Classifier )
设x∈Ω是一一个类别未知的数据样本, Y为类别集合,若数据样本x属于一个特定的类别y(j) ,那么分类问题就是决定P(y(j)|x),即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集中不同类别y先验概率的条件下最可能的分类。贝叶斯理论提供了计算这种可能性的一种直接方法。
前面学过了这里只给出概率图表示:
朴素贝叶斯分类器的概率图表示
朴素贝叶斯是分类问题,y非0即1,如果y不止0,1两个值,如果是一个标注序列,那么就引申到隐马尔可夫模型了。
隐马尔可夫模型的概率图表示
4 隐马尔可夫模型( Hidden Markov Model,HMM )
- HMM是一个五元组λ= (Y,X,Π,A,B) ,
其中Y是隐状态(输出变量)的集合,) X是观察值(输入)集合,Π是初始状态的概率, A是状态转移概率矩阵,B是输出观察值概率矩阵。 - 有两个假设:
齐次一阶Markov
观测独立
5 最大熵马尔可夫模型( MEMM )
- 优点:打破了HMM观测独立假设(更合理)
- 缺点:label bias problem
6 条件随机场( conditional random fields,CRF )
简单说就是把MEMM的有向图变为无向图
打破了HMM的齐次Markov问题,这也是MEMM所没解决的问题
-
简单地讲,随机场可以看成是一组随机变量的集合 (这组随机变量对应同一个样本空间)。当给每一个位置按照某种分布随机赋予一个值之后其全体就叫做随机场。
-
当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。
-
**马尔科夫随机场( MRF )**对应一个无向图。这个无向图上的每一 个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。因此, MRF的结构本质上反应了我们的先验知识- - 一哪些变量之间有依赖关系需要考虑,而哪些可以忽略。
-
具有马尔科夫性质:离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不大。
-
现在,如果给定的MRF中每个随机变量下面还有观察值,我们要确定的是给定观察集合下,这个MRF的分布,也就是条件分布,那么这个MRF就称为CRF。它的条件分布形式完全类似于MRF的分布形式,只不过多了一个
观察集合x。 -
最通用角度来看, CRF本质上是给定了观察值(observations)集合的MRF。