熵相似_概率图简要模型笔记(二)马尔可夫随机场与KL散度、最大熵、指数族分布、高斯分布、极大似然分布...

de2dc2d97b76d373d74d4690398810c4.png

这一篇文章主要是想捋一捋KL散度、最大熵、指数族分布这些东西之间的关系,这是一些非常基本的知识点,刚入门机器学习的时候,傻傻分不清楚,现在回过头来看,其实很多东西都可以串起来,不得不感叹数学真是一个很奇妙的东西。参考资料还是昨天发的视频链接以及结合我研一上的姜峰老师的计算机视觉这门课。

马尔可夫随机场

马尔随机场就是无向图模型,对于无向图而言,它比有向图简单。直观上来说它应该比有向图更简单,而且它应该也和有向图具有相似的性质,尤其是条件独立性因子分解应该是相互等价的。马尔可夫随机场的独立性一共有三个,分别是:全局独立性、局部独立性以及成对马尔科夫性,三个性质是可以相互推导的。

4b5d55564c0205356b07386b7aeaeceb.png

1.条件独立性:

1).全局马尔可夫性(对应D划分)

da6f085add09d58674d53203d688fe1d.png

集合ABC互不相交,若集合A到集合C的所有路径中至少有一个节点位于B集合中(也就是A集合要想到达C集合必须经过B集合),当B集合被观测到,则集合A和集合C独立,这个性质对应着有向图中的D划分。

2)局部马尔科夫性(对应马尔可夫毯)

689f3cee5883a761e5a2aa49c72f5d21.png

在给定相邻节点(b,c,d)的前提下,a节点与其他节点(e, f)相互独立。

3)成对马尔科夫性(与最大团的性质有关)

节点a与节点b是两个不相邻的节点,在除了a节点与b节点以外的节点都被观测到的情况下,a节点与b节点相互独立。

2.因子分解

:一个关于节点的集合,集合中的节点都是相互连接的。

最大团:在一个团中添加任何一个节点都会破坏团的性质,这样的集合称为最大团。

将马尔可夫随机场分解为多个团之后,就可以写出整个随机变量的概率:

4410b169e97695d9ba266ed6571266ae.png

表示第i个最大团, 表示团
中的变量集合。其中Z是归一化函数。 因为是概率,所以要求为非负,对于非负的一般就取指数函数,这个也被称为吉布斯分布(也叫玻尔兹曼分布)。吉布斯分布是指数型函数,可以写作:

d3bb291cd37fcd8b766482545126e2e4.png

Hammersley-Clifford定理将马尔可夫随机场的条件独立性与因子分解两者联合起来了,并证明了两者是等价的。

从吉布斯自由能到马尔可夫随机场

马尔可夫随机场的定义(局部马尔可夫性):

692c69e26e5e2335c0ee584944b47541.png

能否利用因子分解得到马尔可夫随机场的证明,如果可以,那么就证明可以从因子分解得到马尔科夫随机场。

在观测到

节点的相邻节点的条件下,它与其他节点是否相互独立,我们这里设定
节点与其相邻节点的集合为
,其他节点的集合为

51f5360fbc9bbd09781b285e0315ba7d.png

这里最后一步将其转换为在整个变量上的积分,将

集合中的变量全部边缘化掉就剩下
的概率。

8e3bdfc902eb8f92f1ec4593345c5f5c.png

这是参考资料[1]给出的,其实观察会发现,引入R这一步的主要作用好像是在最后变为全局变量的时候有用,因此可以写的更简洁一点:

8c41c80d4aed1843b1c09c8822596d2e.png

后面从吉布斯分布到马尔可夫随机场的属性推导就确实太难了,可以查看一下参考资料[1]。

KL散度、最大熵、指数族函数、高斯分布、吉布斯分布之间的关系

这里还有一个彩蛋,直觉告诉我们:吉布斯既然表示的是一种能量,能量和熵之间很明显应该是存在某种联系的,数学的美妙就美妙在这里,如果有系统的学习过概率统计的同学应该知道,最大熵可以推出指数族分布在满足熵最大的条件下,我们推导出的变量分布都是满足指数族分布的,也包括高斯分布,高斯分布就是满足一阶和二阶充分统计量的指数族分布

变量的吉布斯分布:

9850f34950d0c8bb9ab46afc00d7fdbf.png

这个形式就是指数族分布的形式。接下来推导一下基于熵最大如何得到指数族分布。说到最大熵原理就得提一下计算机视觉得四种先验,对于计算机视觉建模而言,目前主要是存在四种先验规则:1.光滑先验,2.统计规律先验,3.编码稀疏性先验,4.非局部自相似先验。最大熵其实就是统计规律先验。KL散度与最大熵之间是否有联系?其实是有联系的。就把很多思路串联起来了。首先KL散度与熵最大有关,最大熵可以得到指数族分布,吉布斯分布是指数族分布的一种,吉布斯分布用来描述马尔科夫随机场。

从KL散度与熵最大

写出KL散度

bb1e06e32cb8f1fe40b7bd8c1db02e00.png

最小化KL散度:

3080c2c96e0d49dadd7f92479bb95cc6.png

给定一个模型的熵

e989ef9a1da05f4d76eb1998a11c1323.png

在给定约束条件(给统计量)下:

d1fae89394a8ec9718703300e9c36fa6.png

根据拉格朗日乘子法就等价于:

26a82916d88c2d9a6150521f094caea0.png

如果把最后的约束看作是KL散度中的

两者就是等价的,那么能不能这样认为:我个人觉得是可以的,因为前面这一部分代表用q去近似p,也就是说根据已知统计量去近似未知统计量,那么对于在熵的模型中,它就是等价于给定在给定统计量的前提下,使得熵最大的模型。

熵最大模型推导出指数族函数

470412b8f752850379c28f83d860184d.png

直接对

求导:

fd370026a7bb95b2ae87dce8829108be.png

令倒数为0,得到:

438873ac548f0339f75eb054abf83e19.png

这样就可以得到指数族分布:

c9ae587a230f260b0759acd00d071703.png

由于

表示概率,因此需要归一化处理,最终得到:

9e96dc4aa61ecc49e05b139f60f56469.png

这就是指数族函数,指数族分布是机器学习当中一类非常重要的函数,它与很多内容都息息相关,也是自然界中广泛存在的一类概率分布。这样整个东西都串起来了,这是不是就与吉布斯分布类似。

KL散度到极大似然估计:

f12bae8f6d3789860df0a4042bc0d337.png

这个表达式有两项,第一项是常量,因为它表达的是真实分布,所以式子可以等价为:

d5fe453d467d9f53ea773c4d0e7cddc1.png

将积分换为累加:

859c2f8b808a031462234fade3256771.png

这里令

这就得到了极大似然估计:

b2687312c624de14abc59e23994152ba.png

参考资料:

[1]Hammersley-Clifford定理 https://blog.csdn.net/csuyzt/article/details/81709439

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值