概率图几种模型的简介和比较

基础知识
    概率图是一类用的形式表示随机变量之间条件依赖关系的概率模型, 是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假设。根据图中边的有向、无向性,模型可分为两类:有向图、无向图。

G(V,E):变量关系图
V:顶点or节点,表示随机变量
E:边or弧

两个节点邻接:两个节点之间存在边,记为X~Xj ,不存在边,表示条件独立。
路径:若对每个i,都有Xi-1 Xi ,则称序列(X1X... X)是一条路径。

几种概率图模型
  1. 朴素贝叶斯分类器(NBs:Naive Bayes)
  2. 最大熵模型(MEM:Maximum Entropy Model)
  3. 隐马尔可夫模型(HMM:Hidden Markov Models)
  4. 最大熵马尔可夫模型(MEMM:Maximum Entropy Markov Model)
  5. 马尔可夫随机场(MRF:Markov Random Fields)
  6. 条件随机场(CRF:Conditional Random Fields)

1.NBs
贝叶斯定理


一般来说,x已给出,P(x)也是一个定值(虽然不知道准确的数据,但因为是恒值,可以忽略),只需关注分子P(x|yi)P(yi)。P(yi)是类别yi的先验概率,P(x|yi)是x对类别yi的条件概率。
贝叶斯定理说明了可以用先验概率P(yi)来估算后验概率P(x|yi)。

贝叶斯分类器
    设x∈Ω是一个类别未知的数据样本,Y为类别集合,若数据样本x属于一个特定的类别,那么分类问题就是决定P(yi|x),即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集中不同类别yi先验概率的条件下最可能的分类。贝叶斯理论提供了计算这种可能性的一种直接方法。
    举一个简单的例子:
    y是一个包含了整数的数据集合yi=(1,1,1,2,2,5,...,86),每个yi中的数据数量不一定相同,一共有N个这样的yi数据集合,最终组成了一个拥有整数集合的数组。把这个数组当成已经划分好的不同类别。现在给出一个整数,比如1,问这个1属于哪一个集合或者说由某个类别yi产生该整数的可能性是多少?!
    利用以上的贝叶斯定理可知,给定整数1的条件下,问属于yi类别,就等同于求解先验概率P(yi)与P(x|yi)的概率乘积大小。P(yi)表示类别yi的分布概率,在这里可以简单地定义为"每个类别yi的数据量/总数据量"(这种定义是有意义的,某个类别包含数据量越大,那么产生这个数据的可能性就越大)。另外,除了这个先验概率P(yi)之外,还要考虑条件概率P(x|yi)。在这个例子中,不同的yi类别可能都包含了1这个整数,但是每个类别中1出现的概率不一样。所以,最后1属于yi类别的概率=类别yi发生的概率×1在类别yi中的出现概率。

贝叶斯网络(Bayesian Network)
    贝叶斯网络是最基本的有向图,是类条件概率的建模方法。贝叶斯网络包括两部分:网络拓扑图和概率表。贝叶斯拓扑图的有向边指定了样本之间的关联。

概率图示意


每个节点的条件概率分布表示为:P(当前节点|它的父节点)。

联合分布为:

举例:

联合分布为

2.MEM
    最大熵模型主要是在已有的一些限制条件下估计未知的概率分布。最大熵的原理认为,从不完整的信息(例如有限数量的训练数据)推导出的唯一合理的概率分布应该在满足这些信息提供的约束条件下拥有最大熵值。求解这样的分布是一个典型的约束优化问题。

概率图示意


最大熵推导过程省略,直接给出最后的模型公式——指数形式

其中是归一化因子

    最大熵模型公式中的 表示特征函数;表示特征函数的权重 ,可由训练样本估计得到, 大的非负数值表示了优先选择的特征,大的负值对应不太可能生的特征。

3.HMM
    状态集合Y,观察值集合X,两个状态转移概率:从yi-1yi的条件概率分布P(yi yi-1),状态yi的输出观察值概率P(xi yi-1),初始概率P0(y)。
概率示意图


状态序列和观察序列的联合概率


4.MEMM
    用一个分布P(yi yi-1,xi)来替代HMM中的两个条件概率分布,它表示从先前状态yi-1,在观察值xi下得到当前状态的概率,即根据前一状态和当前观察预测当前状态。每个这样的分布函数都是一个服从最大熵的指数模型。

概率图示意


状态y的条件概率公式(每个的状态输出都服从最大熵的指数模型)


5.MRF
    随机场可以看成是一组随机变量(y1y2, …, yn)的集合(这组随机变量对应同一个样本空间)。当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。
    马尔可夫随机场是加了马尔可夫性限制的随机场,一个Markov随机场对应一个无向图定义无向图G=(V,E)V为顶点/节点, E为边,每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。


    马尔可夫性对Markov随机场中的任何一个随机变量,给定场中其他所有变量下该变量的分布,等同于给定场中该变量的邻居节点下该变量的分布。即:

其中表示与yi有边相连的节点。

    Markov随机场的结构本质上反应了我们的先验知识——哪些变量之间有依赖关系需要考虑,而哪些可以忽略。

    马尔可夫性可以看成是马尔科夫随机场的微观属性,而宏观属性就是联合分布。假设MRF的变量集合为Y={y1y2,…, yn}CG有是所有团Yc的集合。


其中表示一个团(clique)Yc的势能,以上公式也可以具体写成

其中Z是归一化因子,是对分子的所有yy1y2,…, yn求和得到T是个温度常数(一般取1)。U(y1y2,…, yn)一般称为能量函数(energy function),定义为在MRF上所有团势(clique-potential)之和。

    在MRF对应的图中,每一个团(clique)对应一个函数,称为团势(clique-potential)。这个联合概率形式又叫做Gibbs分布(Gibbs distribution)。
    Hammersley-Clifford定理给出了Gibbs分布与MRF等价的条件:一个随机场是关于邻域系统的MRF,当且仅当这个随机场是关于邻域系统的Gibbs分布。关于邻域系统δ(s)的MRFX与Gibbs分布等价形式表示为

    在图像处理中,对先验模型的研究往往转换为对能量函数的研究。C表示邻域系统δ 所包含基团的集合,Vc(·)是定义在基团c上的势函数(potential),它只依赖于δ(s),sc的值。δ={δ(s)|sS}是定义在S上的通用的邻域系统的集合。
    上式解决了求MRF中概率分布的难题,使对MRF的研究转化为对势函数Vc(x)的研究,使Gibbs分布与能量函数建立了等价关系,是研究邻域系统 δ(sMRF的一个重要里程碑。
6.CRF
    如果给定的MRF中每个随机变量下面还有观察值,我们要确定的是给定观察集合下MRF的分布,也就是条件分布,那么这个MRF就称为CRF(Conditional Random Field)。它的条件分布形式完全类似于MRF的分布形式,只不过多了一个观察集合X=(x1x2,…, xn),即
    条件随机场可以看成是一个无向图模型或马尔可夫随机场,它是一种用来标记和切分序列化数据的统计模型。

    理论上,图G的结构可以任意,但实际上,在构造模型时,CRFs采用了最简单和最重要的一阶链式结构。

一阶链式CRF示意图(不同于隐马尔科夫链,条件随机场中的x除了依赖于当前状态,还可能与其他状态有关


 X=(x1x2,…, xn)表示观察序列, Y=(y1y2,…, yn)是有限状态的集合。根据随机场的基本理论,无向图中关于顶点的标记条件概率

其中归一化因子

    
以上的状态函数转移函数的统一表达形式。

几种比较

条件随机场隐马尔科夫链的关系和比较
    条件随机场是隐马尔科夫链的一种扩展。
  1. 不同点:观察值xi不单纯地依赖于当前状态yi,可能还与前后状态有关;
  2. 相同点:条件随机场保留了状态序列的马尔科夫链属性——状态序列中的某一个状态只与之前的状态有关,而与其他状态无关。(比如句法分析中的句子成分)

MRF和CRF的关系和比较
    条件随机场和马尔科夫随机场很相似,但又说不同,很容易弄混淆。最通用角度来看,CRF本质上是给定了观察值 (observations)集合的MRF。
    在图像处理中,MRF的密度概率 p(x=labels, y=image) 是一些随机变量定义在团上的函数因子分解。而CRF是根据特征产生的一个特殊MRF。因此一个MRF是由图和参数(可以无数个)定义的,如果这些参数是输入图像的一个函数(比如特征函数),则我们就拥有了一个CRF。
    图像去噪处理中,P(去噪像素|所有像素)是一个CRF,而P(所有像素)是一个MRF。

Statistical learning refers to a set of tools for modeling and understanding complex datasets. It is a recently developed area in statistics and blends with parallel developments in computer science and, in particular, machine learning. The field encompasses many methods such as the lasso and sparse regression, classification and regression trees, and boosting and support vector machines. With the explosion of “Big Data” problems, statistical learning has be- come a very hot field in many scientific areas as well as marketing, finance, and other business disciplines. People with statistical learning skills are in high demand. One of the first books in this area—The Elements of Statistical Learning (ESL) (Hastie, Tibshirani, and Friedman)—was published in 2001, with a second edition in 2009. ESL has become a popular text not only in statis- tics but also in related fields. One of the reasons for ESL’s popularity is its relatively accessible style. But ESL is intended for individuals with ad- vanced training in the mathematical sciences. An Introduction to Statistical Learning (ISL) arose from the perceived need for a broader and less tech- nical treatment of these topics. In this new book, we cover many of the same topics as ESL, but we concentrate more on the applications of the methods and less on the mathematical details. We have created labs illus- trating how to implement each of the statistical learning methods using the popular statistical software package R . These labs provide the reader with valuable hands-on experience.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值