信息熵，交叉熵，KL散度，JS散度之间的关系

最新推荐文章于 2021-09-29 14:11:57 发布

置顶 leung5

最新推荐文章于 2021-09-29 14:11:57 发布

阅读量1.6k

点赞数 1

文章标签：信息熵交叉熵 KL散度 JS散度

本文链接：https://blog.csdn.net/qq_24568487/article/details/82763503

版权

（1）信息熵介绍：

对于连续型随机变量，假设P为随机变量X的概率分布，则p(x)为随机变量X在X = x处的概率，随机变量X在x处的香农信息量为：

$\dpi{120} \large f (P) = log\frac{1}{p(x)}= - log p(x)$

香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。很容易看到：当 X = x 的概率 p (x) 比较大时，就代表此事发生的概率比较大，不确定性因素小，从而 f (P) 会比较小。如随机事件“买了彩票却没中奖” 发生的概率比较大，不需要多少信息量就可以消除不确定性，因此该随机事件的香农信息量就少。

而信息熵 H(p) 是香农信息量 -logp(x) 的数学期望，即所有 X= x 处的香农信息量的和，由于每一个x的出现概率不一样（用概率密度函数值p(x)衡量），需要用p(x) 加权求和。因此信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。

其数学定义如下：

$\large H(p) = H(X) = E_{x\sim p(x)}[-log p(x)] = - \int p(x)log \frac{1}{p(x)} dx$