信息熵(entropy)

信息熵用来描述信息的不确定性,如果不确定性越高,那么信息熵越大,否则则越低。

自信息(信息量)

I(X)称为自信息, I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=logP(x) 。通过公式可以看出, P ( x ) P(x) P(x) 越大,自信息就越小。当然,如果一件事情发生的概率为1,那么他的自信息就是0.

信息熵

假设X的分布为P(X),那么其信息熵为:
H ( X ) = E [ I ( X ) ] = ∑ i p ( x i ) I ( x i ) = − ∑ i p ( x i ) l o g p ( ( x i ) ) \begin{aligned} H(X)&=E[I(X)]\\ &= \sum_ip(x_i)I(x_i)\\ &=-\sum_ip(x_i)logp((x_i)) \end{aligned} H(X)=E[I(X)]=ip(xi)I(xi)=ip(xi)logp((xi))

联合熵

假设 X , Y X,Y X,Y的联合分布为 P ( X , Y ) P(X,Y) P(X,Y),那么其信息熵为:
H ( X , Y ) = E [ I ( X , Y ) ] = ∑ x , y p ( x , y ) I ( x , y ) = − ∑ x , y p ( x , y ) l o g ( p ( x , y ) ) \begin{aligned} H(X,Y)&=E[I(X,Y)]\\ &=\sum_{x,y} p(x,y)I(x,y)\\ &=-\sum_{x,y} p(x,y)log(p(x,y)) \end{aligned} H(X,Y)=E[I(X,Y)]=x,yp(x,y)I(x,y)=x,yp(x,y)log(p(x,y))

条件熵

在信息论中,条件熵描述了在已知第二个随机变量 X X X的值的前提下,随机变量 Y Y Y的信息熵还有多少。
如果 H ( Y ∣ X = x ) H(Y|X=x) H(YX=x)表示已知 X = x X=x X=x的情况下, Y Y Y的信息熵,那么我们有:
H ( Y ∣ X ) = ∑ x p ( x ) H ( Y ∣ X = x ) = − ∑ x p ( x ) ∑ y p ( y ∣ x ) l o g ( p ( y ∣ x ) ) = − ∑ x , y p ( x , y ) l o g ( p ( y ∣ x ) ) = ∑ x , y p ( x , y ) l o g ( p ( x ) p ( x , y ) ) \begin{aligned} H(Y|X)&=\sum_xp(x)H(Y|X=x) \\ &=-\sum_xp(x)\sum_yp(y|x)log(p(y|x)) \\ &=-\sum_{x,y}p(x,y)log(p(y|x)) \\ &=\sum_{x,y}p(x,y)log(\frac{p(x)}{p(x,y)}) \end{aligned} H(YX)=xp(x)H(YX=x)=xp(x)yp(yx)log(p(yx))=x,yp(x,y)log(p(yx))=x,yp(x,y)log(p(x,y)p(x))
条件熵与联合熵的关系
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(YX)=H(X,Y)H(X)

互信息

在信息论中,两个随机变量的互信息是变量间相互依赖的量度。
一般的,连个离散随机变量 X X X Y Y Y的互信息可以定义为:
I ( X ; Y ) = ∑ x , y p ( x , y ) l o g ( p ( x , y ) p ( x ) p ( y ) ) I(X;Y)=\sum_{x,y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)}) I(X;Y)=x,yp(x,y)log(p(x)p(y)p(x,y))
I ( X ; Y ) = 0 I(X;Y)=0 I(X;Y)=0当且仅当 X , Y X,Y X,Y互为独立随机变量
互信息又可以表示为:
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) = H ( X , Y ) − H ( X ∣ Y ) − H ( Y ∣ X ) \begin{aligned} I(X;Y)&=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \\ &=H(X)+H(Y)-H(X,Y) \\ &=H(X,Y)-H(X|Y)-H(Y|X) \end{aligned} I(X;Y)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(X,Y)=H(X,Y)H(XY)H(YX)

交叉熵

上面是对于两个随机变量的,下面介绍对于两个分布的。
H , Q H,Q H,Q是两个分布函数,则他们的交叉熵为:
H ( P , Q ) = − ∫ P ( x ) l o g Q ( x ) d x H(P,Q) = -\int P(x)logQ(x) dx H(P,Q)=P(x)logQ(x)dx
交叉熵越小,说明这两个分布越相似

KL散度

KL散度,也称相对熵。用于度量两个概率分布之间的差异,给定两个概率分布 P , Q P,Q P,Q,两者之间的KL散度为:
K L ( P ∣ ∣ Q ) = ∫ p ( x ) l o g ( p ( x ) q ( x ) ) d x = − H ( P ) + H ( P , Q ) \begin{aligned} KL(P||Q)&=\int p(x)log(\frac{p(x)}{q(x)}) dx\\ &=-H(P)+H(P,Q) \end{aligned} KL(PQ)=p(x)log(q(x)p(x))dx=H(P)+H(P,Q)
参考资料
https://zh.wikipedia.org/wiki/%E8%81%94%E5%90%88%E7%86%B5
https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF
https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值