对信息熵的理解

最新推荐文章于 2022-09-03 15:37:15 发布

季马宝宝

最新推荐文章于 2022-09-03 15:37:15 发布

阅读量423

点赞数 1

分类专栏：人工智能基础文章标签：信息熵机器学习

本文链接：https://blog.csdn.net/qq_21043585/article/details/121432518

版权

人工智能基础专栏收录该内容

7 篇文章 3 订阅

订阅专栏

信息熵

$H(x)=-\sum_{x_i\in{X}}p(x_i)log_2(p(x_i))$
代表x包含的信息量

联合熵

$H(x,y)=-\sum_{x_i\in{X}}\sum_{y_i\in{Y}}p(x_i,y_i)log_2(p(x_i,y_i))$
代表x,y总共包含的信息量， $p(x_i,y_i)$ 是联合和概率，如果是离散的，假设x有n种可能性，y有m种可能性，把mn种可能性全部当成z(xy同时成立)的概率，求z的熵。

条件熵

$H(x|y)=-\sum_{x_i\in{X}}\sum_{y_i\in{Y}}p(x_i|y_i)log_2(p(x_i,y_i))$
在已知y的情况下，x包含了多少信息

条件熵与联合熵的关系

$H (x, y) = H (x) + H (y ∣ x)$
x,y共同包含信息量=x包含信息量+已知x情况下y包含信息量
对比 $P (x, y) = P (x) * P (y ∣ x)$ ,本质上是一个意思，乘法取对数就是加法

熵的连锁规则

$H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$
$H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)$
对比:
$P (X, Y) = P (X) * P (Y ∣ X) = P (Y) * P (X ∣ Y)$
$P (X) * P (X ∣ Y) = P (Y) * P (Y ∣ X)$
上面叫熵的连锁反应，下面变一变是贝叶斯公式
定义 ${I(X;Y)=H(X)−H(X∣Y)}$ 互信息，互信息指的就是x和y同时包含的信息，等于x包含的信息-已知y情况下x包含的信息，也就是y可以推测出的x包含的信息

互信息、条件熵、联合熵关系

在这里插入图片描述

交叉熵

$H(X,q)=-\sum_xp(x)logq(x)$
~~交叉熵的概念就是衡量估计模型和真实概率分布之间差异情况的。~~ （别人写的，我觉得不太对，相对熵才是）。我觉得交叉熵是使用一个分布去估计真实分布所包含的信息量。
cross entropy常用于机器学习中的分类问题，我们对样本进行预测后，将获得他是每一类的概率，就是上述公式里的q，然后我们使用这个概率去预测真实分布，真实分布就是只有他属于的那一类概率为1，其他都为0。
如果我们的分类完全正确，那么熵应该是0（因为确定每个东西属于哪一类），那么交叉熵也应该是0，与真实的熵没有差别。
PS：我认为损失函数本质上是相对熵，只不过真实样本是完全确定的信息熵等于0

相对熵

$D(p||q)=\sum_{x_i\in{X}}p(x_i)log_2(\frac{p(x_i)}{q{(x_i)}})$
写成减法
$D(p||q)=-\sum_{x_i\in{X}}p(x_i)log_2(q(x_i))-(-\sum_{x_i\in{X}}p(x_i)log_2(p(x_i)))$
相对熵=交叉熵-信息熵
就是模型预测的熵和我真实的熵之间的差值
当两个分布完全相同，相对熵为0，相对熵表达的是两个分布之间的距离（KL距离）。
PS:相对熵是不对称的
互信息与相对熵：
$I (x, y) = D (p (x, y) ∣ ∣ p (x) p (y))$
互信息=联合分布相对于独立分布的程度（距离）

最大熵

季马宝宝

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对信息熵的理解

信息熵H(x)=−∑xi∈Xp(xi)log2(p(xi))H(x)=-\sum_{x_i\in{X}}p(x_i)log_2(p(x_i))H(x)=−∑xi∈Xp(xi)log2(p(xi))代表x包含的信息量联合熵H(x,y)=−∑xi∈X∑yi∈Yp(xi,yi)log2(p(xi,yi))H(x,y)=-\sum_{x_i\in{X}}\sum_{y_i\in{Y}}p(x_i,y_i)log_2(p(x_i,y_i))H(x,y)=−∑xi∈X∑yi∈Yp(xi,yi
复制链接

扫一扫

专栏目录