这一篇文章主要是想捋一捋KL散度、最大熵、指数族分布这些东西之间的关系,这是一些非常基本的知识点,刚入门机器学习的时候,傻傻分不清楚,现在回过头来看,其实很多东西都可以串起来,不得不感叹数学真是一个很奇妙的东西。参考资料还是昨天发的视频链接以及结合我研一上的姜峰老师的计算机视觉这门课。
马尔可夫随机场
马尔随机场就是无向图模型,对于无向图而言,它比有向图简单。直观上来说它应该比有向图更简单,而且它应该也和有向图具有相似的性质,尤其是条件独立性和因子分解应该是相互等价的。马尔可夫随机场的独立性一共有三个,分别是:全局独立性、局部独立性以及成对马尔科夫性,三个性质是可以相互推导的。
1.条件独立性:
1).全局马尔可夫性(对应D划分)
集合ABC互不相交,若集合A到集合C的所有路径中至少有一个节点位于B集合中(也就是A集合要想到达C集合必须经过B集合),当B集合被观测到,则集合A和集合C独立,这个性质对应着有向图中的D划分。
2)局部马尔科夫性(对应马尔可夫毯)
在给定相邻节点(b,c,d)的前提下,a节点与其他节点(e, f)相互独立。
3)成对马尔科夫性(与最大团的性质有关)
节点a与节点b是两个不相邻的节点,在除了a节点与b节点以外的节点都被观测到的情况下,a节点与b节点相互独立。
2.因子分解
团:一个关于节点的集合,集合中的节点都是相互连接的。
最大团:在一个团中添加任何一个节点都会破坏团的性质,这样的集合称为最大团。
将马尔可夫随机场分解为多个团之后,就可以写出整个随机变量的概率:
Hammersley-Clifford定理将马尔可夫随机场的条件独立性与因子分解两者联合起来了,并证明了两者是等价的。
从吉布斯自由能到马尔可夫随机场:
马尔可夫随机场的定义(局部马尔可夫性):
能否利用因子分解得到马尔可夫随机场的证明,如果可以,那么就证明可以从因子分解得到马尔科夫随机场。
在观测到
这里最后一步将其转换为在整个变量上的积分,将
这是参考资料[1]给出的,其实观察会发现,引入R这一步的主要作用好像是在最后变为全局变量的时候有用,因此可以写的更简洁一点:
后面从吉布斯分布到马尔可夫随机场的属性推导就确实太难了,可以查看一下参考资料[1]。
KL散度、最大熵、指数族函数、高斯分布、吉布斯分布之间的关系
这里还有一个彩蛋,直觉告诉我们:吉布斯既然表示的是一种能量,能量和熵之间很明显应该是存在某种联系的,数学的美妙就美妙在这里,如果有系统的学习过概率统计的同学应该知道,最大熵可以推出指数族分布,在满足熵最大的条件下,我们推导出的变量分布都是满足指数族分布的,也包括高斯分布,高斯分布就是满足一阶和二阶充分统计量的指数族分布。
变量的吉布斯分布:
这个形式就是指数族分布的形式。接下来推导一下基于熵最大如何得到指数族分布。说到最大熵原理就得提一下计算机视觉得四种先验,对于计算机视觉建模而言,目前主要是存在四种先验规则:1.光滑先验,2.统计规律先验,3.编码稀疏性先验,4.非局部自相似先验。最大熵其实就是统计规律先验。KL散度与最大熵之间是否有联系?其实是有联系的。就把很多思路串联起来了。首先KL散度与熵最大有关,最大熵可以得到指数族分布,吉布斯分布是指数族分布的一种,吉布斯分布用来描述马尔科夫随机场。
从KL散度与熵最大:
写出KL散度:
最小化KL散度:
给定一个模型的熵:
在给定约束条件(给统计量)下:
根据拉格朗日乘子法就等价于:
如果把最后的约束看作是KL散度中的
从熵最大模型推导出指数族函数:
直接对
令倒数为0,得到:
这样就可以得到指数族分布:
由于
这就是指数族函数,指数族分布是机器学习当中一类非常重要的函数,它与很多内容都息息相关,也是自然界中广泛存在的一类概率分布。这样整个东西都串起来了,这是不是就与吉布斯分布类似。
从KL散度到极大似然估计:
这个表达式有两项,第一项是常量,因为它表达的是真实分布,所以式子可以等价为:
将积分换为累加:
这里令
这就得到了极大似然估计:
参考资料:
[1]Hammersley-Clifford定理 https://blog.csdn.net/csuyzt/article/details/81709439