【PRML学习笔记】信息论与最大熵

最新推荐文章于 2022-07-21 00:58:09 发布

baby丨超超

最新推荐文章于 2022-07-21 00:58:09 发布

阅读量890

点赞数 1

分类专栏：学习笔记

本文链接：https://blog.csdn.net/langyichao1/article/details/78188018

版权

学习笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

信息论与最大熵

序

If we are told that a highly improbable event has just occurred, we will have received more information than if we were told that some very likely event has just occurred, and if we knew that the event was certain to happen we would receive no information.

一、信息论

信息熵是人们对客观事件的不确定性的度量。正如序中所言，对于一个事物，我们知道的越有可能发生，那么我们用来找出确定的情况所需要得到信息就越少，反之亦然。
此外，信息熵还具有可加的性质。两个事物如果是不相关的，如果我们同时得到的两个事物，那么我们所接收的信息是可以叠加的。我们使用 $h(x)$ 表示事件发生概率为 $p(x)$ 的信息熵，那么刚才说的可加性可以表示为 $h(x,y)=h(x)+h(y)$ 而对于概率来说 $p(x,y)=p(x)p(y)$ 。所以我们可以用下面的式子来表示一个集合的信息熵：

h (x) = - log 2 p (x)

$h(x)=-\log_2p(x)$ 这里，负号使得信息熵的值大于等于零，此外底数为2表示

h(x) $h(x)$ 的单位为比特(bit)，当然这里也可以是另外的底数。
对于一个事件的集合{ x}，每个事件对应的概率为

p(x) $p(x)$ ,那么这个事件集合的信息熵的期望为

H [x] = - \sum x p (x) log 2 p (x)

$\mathbf{H}[x]=-\sum_x p(x)\log_2p(x)$ 换言之，对于一个离散的随机变量 X，有 M种实现，对应每一种实现

xi $x_i$ ，它所对应的概率为

p(X=xi)=pi $p(X=x_i)=p_i$ ，那么随机变量 X的信息熵为：

H [p] = - \sum i p (x i) log 2 p (x i)

$\mathbf{H}[p]=-\sum_i p(x_i)\log_2p(x_i)$
对于连续的随机变量，从离散的情况进行推导，得到：

H [x] = - \int p (x) ln p (x) d x

$\mathbf{H}[x]=-\int p(x)\ln p(x) dx$ 对于多个连续随机变量的情况，变量可以表示为一个向量 x，它的信息熵为：

H [x] = - \int p (x) ln p (x) d x

$\mathbf{H}[\mathbf{x}]=-\int p(\mathbf{x})\ln p(\mathbf{x}) d\mathbf{x}$

二、最大熵

最大熵原理是一种选择随机变量统计特性最符合客观情况的准则，也称为最大信息原理。随机量的概率分布是很难测定的，一般只能测得其各种均值（如数学期望、方差等）或已知某些限定条件下的值（如峰值、取值个数等），符合测得这些值的分布可有多种、以至无穷多种，通常，其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布，是一种有效的处理方法和准则。这种方法虽有一定的主观性，但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。
这里我们来计算几个简单的最大熵分布。对于离散的随机变量来说，因为 $0\leq p_i\leq1$ ，随机变量的信息熵最小值为0，当 $p_i=1$ 和其他所有 $p_{j\neq i}=0$ 。而信息熵在标准化的限制情况下（概率之和为1），引入拉格朗日算子，最大值为：