对信息熵的理解

信息熵

H ( x ) = − ∑ x i ∈ X p ( x i ) l o g 2 ( p ( x i ) ) H(x)=-\sum_{x_i\in{X}}p(x_i)log_2(p(x_i)) H(x)=xiXp(xi)log2(p(xi))
代表x包含的信息量

联合熵

H ( x , y ) = − ∑ x i ∈ X ∑ y i ∈ Y p ( x i , y i ) l o g 2 ( p ( x i , y i ) ) H(x,y)=-\sum_{x_i\in{X}}\sum_{y_i\in{Y}}p(x_i,y_i)log_2(p(x_i,y_i)) H(x,y)=xiXyiYp(xi,yi)log2(p(xi,yi))
代表x,y总共包含的信息量, p ( x i , y i ) p(x_i,y_i) p(xi,yi)是联合和概率,如果是离散的,假设x有n种可能性,y有m种可能性,把mn种可能性全部当成z(xy同时成立)的概率,求z的熵。

条件熵

H ( x ∣ y ) = − ∑ x i ∈ X ∑ y i ∈ Y p ( x i ∣ y i ) l o g 2 ( p ( x i , y i ) ) H(x|y)=-\sum_{x_i\in{X}}\sum_{y_i\in{Y}}p(x_i|y_i)log_2(p(x_i,y_i)) H(xy)=xiXyiYp(xiyi)log2(p(xi,yi))
在已知y的情况下,x包含了多少信息

条件熵与联合熵的关系

H ( x , y ) = H ( x ) + H ( y ∣ x ) H(x,y)=H(x)+H(y|x) H(x,y)=H(x)+H(yx)
x,y共同包含信息量=x包含信息量+已知x情况下y包含信息量
对比 P ( x , y ) = P ( x ) ∗ P ( y ∣ x ) P(x,y)=P(x)*P(y|x) P(x,y)=P(x)P(yx),本质上是一个意思,乘法取对数就是加法

熵的连锁规则

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)
H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) H(X)−H(X∣Y)=H(Y)−H(Y∣X) H(X)H(XY)=H(Y)H(YX)
对比:
P ( X , Y ) = P ( X ) ∗ P ( Y ∣ X ) = P ( Y ) ∗ P ( X ∣ Y ) P(X,Y)=P(X)*P(Y∣X)=P(Y)*P(X∣Y) P(X,Y)=P(X)P(YX)=P(Y)P(XY)
P ( X ) ∗ P ( X ∣ Y ) = P ( Y ) ∗ P ( Y ∣ X ) P(X)*P(X∣Y)=P(Y)*P(Y∣X) P(X)P(XY)=P(Y)P(YX)
上面叫熵的连锁反应,下面变一变是贝叶斯公式
定义 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) {I(X;Y)=H(X)−H(X∣Y)} I(X;Y)=H(X)H(XY)互信息,互信息指的就是x和y同时包含的信息,等于x包含的信息-已知y情况下x包含的信息,也就是y可以推测出的x包含的信息

互信息、条件熵、联合熵关系

在这里插入图片描述

交叉熵

H ( X , q ) = − ∑ x p ( x ) l o g q ( x ) H(X,q)=-\sum_xp(x)logq(x) H(X,q)=xp(x)logq(x)
交叉熵的概念就是衡量估计模型和真实概率分布之间差异情况的。 (别人写的,我觉得不太对,相对熵才是)。我觉得交叉熵是使用一个分布去估计真实分布所包含的信息量。
cross entropy常用于机器学习中的分类问题,我们对样本进行预测后,将获得他是每一类的概率,就是上述公式里的q,然后我们使用这个概率去预测真实分布,真实分布就是只有他属于的那一类概率为1,其他都为0。
如果我们的分类完全正确,那么熵应该是0(因为确定每个东西属于哪一类),那么交叉熵也应该是0,与真实的熵没有差别。
PS:我认为损失函数本质上是相对熵,只不过真实样本是完全确定的信息熵等于0

相对熵

D ( p ∣ ∣ q ) = ∑ x i ∈ X p ( x i ) l o g 2 ( p ( x i ) q ( x i ) ) D(p||q)=\sum_{x_i\in{X}}p(x_i)log_2(\frac{p(x_i)}{q{(x_i)}}) D(pq)=xiXp(xi)log2(q(xi)p(xi))
写成减法
D ( p ∣ ∣ q ) = − ∑ x i ∈ X p ( x i ) l o g 2 ( q ( x i ) ) − ( − ∑ x i ∈ X p ( x i ) l o g 2 ( p ( x i ) ) ) D(p||q)=-\sum_{x_i\in{X}}p(x_i)log_2(q(x_i))-(-\sum_{x_i\in{X}}p(x_i)log_2(p(x_i))) D(pq)=xiXp(xi)log2(q(xi))(xiXp(xi)log2(p(xi)))
相对熵=交叉熵-信息熵
就是模型预测的熵和我真实的熵之间的差值
当两个分布完全相同,相对熵为0,相对熵表达的是两个分布之间的距离(KL距离)。
PS:相对熵是不对称的
互信息与相对熵:
I ( x , y ) = D ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) I(x,y)=D(p(x,y)||p(x)p(y)) I(x,y)=D(p(x,y)p(x)p(y))
互信息=联合分布相对于独立分布的程度(距离)

最大熵
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值