从概率分布到最大熵

最新推荐文章于 2023-03-10 00:20:02 发布

明天,今天,此时

最新推荐文章于 2023-03-10 00:20:02 发布

阅读量1.8k

点赞数 1

分类专栏：算法

本文链接：https://blog.csdn.net/LearnToPain/article/details/106893433

版权

算法专栏收录该内容

27 篇文章 0 订阅

订阅专栏

0.前言

最近在温习统计学习方法，比较针对自然语言处理，所以从最大熵开始看，最大熵是后面EM、HMM、CRF的基础。还记得第一次看最大熵的情景是根本看不懂，越不懂越烦躁。现在再看似乎不会有那种感觉，但是似乎还是有一些看不清，至少只从统计学习方法这本书来看。百度了一下别人写的最大熵，简单的例子写了很长篇幅来说明最大熵。依我来看，那些不懂的人并不是一个例子不详细的问题。

1.维度

维度这个在数学类学科中很容易混淆，在我这就有三个理解：

同质数据维度

1）物理上的维度，线条是一维，图片是二维，空间是三维等等。一个方向表示一个维度，三个方向相互垂直正交，设二维图的轴为 $X_{1}$ 和 $X_{2}$ ，那么元素（某个点）就是两个轴分量的共同表示（ $x_{1},x_{2}$ ）。

2）线性代数的维度，我们知道，线性代数不管多少维度都由一个二维表表示，设有n个线性无关向量，在二维表中形式上是同一个方向表示。但是这个二维表代表的是n维空间，每一列就是一个维度，代表一个维度轴。n维空间中的任何一条线都可以用n维向量线性表示出来，同时这个向量也表示了点，点到原点是向量。

区别：a. 1)用以个标量表示一个轴方向，比如二维x1=3；2）是用向量表示一个轴方向,比如二维，x1=[3,0]；

b. 概率分布这样的概念用1）去理解，数据挖掘中的数据维度，用3）去理解。

1）是可以表达成2）的形式，但是维度这个表达1）要直观一些。

异质数据维度

3)表格数据

序号	X	Y	Z
1	Yes	一等	3级
2	No	三等	10级
3	No	一等	7级

X,Y，Z三个变量从三个维度描述实体（样本），一个样本就是一个点。维度表示和2）相似，相对来说2）没有明确变量名，3）不仅仅明确变量名，而且变量间的差异比较明显，换句话说，增加一个字段就是增加一个维度。

2.最大熵启文

原理：

变量分布未知的情况下，同时满足变量所有限制条件，这时变量视为服从均匀分布。

书上的例子：有5个取值{ $\small {A,B,C,D,E}$ }，限制条件为 P(A)+P(C)=3/10 ;P(A)+...P(E)=1 ，这时 P(A)=P(B)=3/20 ， P(A) 和 P(B) 在限制条件 P(A)+P(B)=3/10 约束条件下取的均值。

为什么取均值？是熵定义0.5的概率不确定性最大，均匀概率事件就是不确定性最大。

难点：

上面原理很好理解一看就能懂，也没必要用骰子讲很长篇幅。最难理解的是书上公式中的 P(y|x) ，尽管单独来看只是条件概率，但在整个理解过程中最是疑惑的一个点。如：

1）这个条件概率表示的是什么？为什么是这样的表达？

2）为什么在推导的时候能对它求导？？

3.概率分布

我们先讲讲概率分布，通常情况下我们认知的概率分布应该是

上面这两种是我们经验得到的认知，过往的知识往往会限制现在的思维。

熵通常用在分类的概率计算，概率分布可以是这样：

上图分布的期望是-2*0.5+-1*0.5+0.25+0.05*3=-1.1。

书上两公式：

如果学过统计概率的都知道，这个公式是求期望公式，是经验分布，为了理解先简化公式为

，如果是上面分布，那么f() 就改变了分布,即如果f(x)=1的条件是x< 0，那么上图例子的分布变成了：

期望值变为0.7，根据下面公式变化：

主要搞懂轴坐标值和概率值的关系，其实期望就是根据y坐标轴上的概率P值来求x轴上的X的某表达，期望公式就是这么变化来的，变化的是x轴。

书上公式：

正题来了，主要难点在这个公式的理解，书上只说了一句：特征函数关于模型 P(Y|X) 与经验分布 $\tilde{P}(X)$ 的期望值，用 $E_{P}(f)$ 表示。

根据知乎大神https://zhuanlan.zhihu.com/p/29978153介绍，这知乎大神说的是贝叶斯，没错，因为等价，所以替换了原来。样本给出了 $\small x,y$ 具体值， $\small X$ 的分布用 $\small X$ 的边缘经验分布近似， $\small Y$ 的分布呢， $\small Y$ 的分布没出来， $\small Y$ 的分布就是我们要求的变量，由于X和Y是联合变量，所以我们要得到的是当 $\small X=x$ 时， $\small Y=y$ 的概率是多少，也就是 $\small P(y|x)$ ,注意这是一个值哟，由于未知，取值范围是 $\small 0\leq P(y|x)\leq 1$ ，所以是一个变量，这个变量同时依赖了x,y两个值。换句话说X和Y构成了一个矩阵，这矩阵里面的值都是未知数，我们的目的就是求出这个矩阵，或着叫Y相对于X的概率分布。

这里已经说完了，不过还是难以理解清楚。因为本来是通过 $\small x$ , $\small y$ 来得到概率值，结果概率值是变量，而概率值直接关系是 $\small y$ ，因为是度量 $\small y$ 的概率，也摆脱不了 $\small x$ ， $\small x$ 是 $\small P$ 的一个条件平台。

注意公式中分布改造了这个分布，也就是才是一个完整的分布。

4.最大熵公式理解

然后就是这个书上的公式：

等式左边是完全经验分布建立的公式，等式右边是用已知的经验边缘分布和未知的条件分布建立的公式，等式两边就只有一个变量了。

上面的这么多其实都是说的最大熵的等式条件，这样的条件可能有 $\small n$ 个，那么改造分布的方法 $\small f()$ 可能有 $\small n$ 个。

书上的公式：

这就是最大熵公式，和 $\small E_{p}(f)$ 长得很像对吧，就是把 $\small f$ 值取P的对数就可以了。

这个公式的出现，也是很突兀。不知道是最大熵原创作者的创新，还是根据前面公式中 $\small f()$ 的替换。

可以这样理解，经验边缘概率P(X)是X的分布表示X=x时的整体占比，P(y|x)logP(y|x)是X=x下的条件熵下的一个子元素，因为熵要有个求和过程。

5.最大熵推导过程

前面已经说明，纬度和概率分布是什么！可以很好的帮助我们理解这个最大熵的过程。

这个公式是已知x边缘分布的熵的公式，

最大熵就是让这个熵公式最大，即：

当然，还没完，表述要完整，两个条件必须用：

第一个公式，

这里注意理解哟，（x,y）表示一个元素，在样本中X=x,Y=y可以出现很多次， f_i 是值变量哟。

第二个公式：

感觉有点荒唐，谁都知道的，居然拿来当条件，不理解归不理解，拉格朗日函数用上了。

6.拉格朗日函数

拉个朗日函数是什么东西？这个只有专门搞相关学术的人才知道，这个太复杂了，一般人是不可能知道的，据说涉及到实变泛函。这里就不深入探讨，我们就像用三角函数公式一样，不需要去证明推导它们是怎么来的，背下来拿来用就可以了，当然这个被众人沿用很多年的函数是否有问题，不知道，尽管被公认是对的，大牛没办法证明它有错，我们就别纠结它的正确性了。根据拉格朗日函数有：