详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系

最新推荐文章于 2023-10-22 21:01:49 发布

随遇而安_小强

最新推荐文章于 2023-10-22 21:01:49 发布

阅读量1.1w

点赞数 3

分类专栏：机器学习学习笔记文章标签：熵联合熵和条件熵相对熵互信息 Venn

本文链接：https://blog.csdn.net/qq_16000815/article/details/80902977

版权

信息量的定义某事件发生的概率小，则该事件的信息量大。定义随机变量XXX的概率分布为P(X)P(X)P\left( X \right),XXX的信息量为：h(X)=−log2P(X)h(X)=−log2P(X)h\left( X \right) = - {\log _2}P\left( X \right).熵对随机事件按的信息量求期望，得到随机变量XXX的熵： H(X)=−∑...

摘要由CSDN通过智能技术生成

信息量的定义

某事件发生的概率小，则该事件的信息量大。
定义随机变量 $X$ 的概率分布为 $P\left( X \right)$ , $X$ 的信息量为： $h\left( X \right) = - {\log _2}P\left( X \right)$ .

熵

对随机事件的信息量求期望，得到随机变量 $X$ 的熵：
$H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)$

当对数底数是2时，单位是bit，当对数底数是e时，单位是nat(奈特)。同时，若 $P\left( x \right) = 0$ ,则定义 $0\log 0 = 0$ 。由熵定义可知，随机变量的熵只依赖于 $X$ 的分布，而与 $X$ 的取值无关。
熵表示的是随机变量不确定性的度量。熵越大，随机变量的不确定性也就越大。

两点分布的熵

H (X) = - \sum x \in X P (x) log P (x) = - p log 2 p - (1 - p) log 2 (1 - p)

$H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) = - p{\log _2}p - \left( {1 - p} \right){\log _2}\left( {1 - p} \right)$

这时，熵 $H\left( X \right)$ 随概率 $p$ 变化的曲线如下图所示。

当 $p = 0$ 或 $p = 1$ 时，随机变量完全没有不确定性。当 $p = 0.5$ 时， $H\left( X \right) = 1$ ,熵取得最大值，随机变量的不确定性最大。

离散随机变量的最大熵

假设离散随机变量 $X$ 的概率分布是 $P\left( X \right)$ ,则其熵是：

H (X) = - \sum x \in X P (x) log P (x)

$H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)$
熵满足下列不等式：

0 \leq H (X) \leq log | X |

$0 \le H\left( X \right) \le \log \left| X \right|$
其中

|X| | X | $\left| X \right|$ 是

X X $X$ 的取值个数，当且仅当

X

$X$ 的分布是均匀分布时右边的等号成立。也就是说，当

X X $X$ 服从均匀分布时，熵最大。

给定期望和方差，最大熵的分布形式

正态分布的概率密度函数为：

f (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}

$f\left( x \right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}}}}$
对数正态分布为：

ln f (x) = ln 1 2 π - - \sqrt - ln σ - - ( x - μ ) 2 2 σ 2 = α \cdot x 2 + β \cdot x + γ

$\ln f\left( x \right) = \ln \frac{1}{{\sqrt {2\pi } }} - \ln \sigma - - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}} = \alpha \cdot {x^2} + \beta \cdot x + \gamma$
该分布的对数是关于随机变量

X X $X$ 的二次函数。根据计算过程的可逆性，若某对数分布能够写成随机变量二次形式，该分布必然是正态分布。
目标函数为：

\begin{array}{l} \arg max_{P (x)} H (X) = - \sum_{x \in X} P (x) \log P (x) \\ s . t . {\begin{cases} E (X) = μ \\ V a r (X) = σ^{2} \end{cases} \end{array}

$\begin{array}{l} \arg \mathop {\max }\limits_{P\left( x \right)} H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)\\ s.t.\left\{ \begin{array}{l} E\left( X \right) = \mu \\ Var\left( X \right) = {\sigma ^2} \end{array} \right. \end{array}$
由约束条件

E(X)

最低0.47元/天解锁文章

随遇而安_小强

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
2
评论
详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系

信息量的定义某事件发生的概率小，则该事件的信息量大。定义随机变量XXX的概率分布为P(X)P(X)P\left( X \right),XXX的信息量为：h(X)=−log2P(X)h(X)=−log2P(X)h\left( X \right) = - {\log _2}P\left( X \right).熵对随机事件按的信息量求期望，得到随机变量XXX的熵： H(X)=−∑...
复制链接

扫一扫