关于信息熵的指标

信息熵

信息论中的熵,又叫信息熵,用来衡量一个随机变量的不确定程度。熵越大,不确定性越大。

H(X)=E[I(xi)]=n1NP(xi)log(P(xi)) H ( X ) = E [ I ( x i ) ] = − ∑ n − 1 N P ( x i ) l o g ( P ( x i ) )

交叉熵

如果一个随机变量X服从p(x)分布,q(x)用于近似p(x)的概率分布,那么随机变量和模型q之间的交叉熵定义为:

H(X,q)=xp(x)log(q(x)) H ( X , q ) = − ∑ x p ( x ) l o g ( q ( x ) )

  • 交叉熵本质上是用一个猜测的分布的编码方式去编码其真实分布,得到的平均编码长度或者信息量(最短的平均编码长度 = 信源的不确定程度 / 传输的表达能力,传输的表达能力为 log2n l o g 2 n ,n为类别数)。
  • 交叉熵相当于衡量两个编码方式之间的差值,因为只有当猜测的分布越接近于真实分布,则其值越小。
  • 交叉熵损失函数是机器学习常用的一个损失函数,目标是让H(X,q)尽可能的小。对于二分类问题, L=iyilog(p(xi))+(1yi)log(1p(xi)) L = − ∑ i y i l o g ( p ( x i ) ) + ( 1 − y i ) l o g ( 1 − p ( x i ) )

相对熵(KL散度)

相对熵是用来衡量两个分布之间的相似度。当两个随机分布完全相同,相对熵为0。

D(P||D)=H(p,q)H(p)          =i=1npilog(qi)(i=1npilog(pi))  =i=1npilogpiqi D ( P | | D ) = H ( p , q ) − H ( p )                     = − ∑ i = 1 n p i l o g ( q i ) − ( − ∑ i = 1 n p i l o g ( p i ) )     = ∑ i = 1 n p i l o g p i q i

  • 相对熵是用交叉熵减去真实分布的信息熵,表示用估计分布计算的平均编码长度(Define)比最短平均编码长度长多少,因此交叉熵=信息熵+相对熵

联合熵

联合熵表示一对随机变量(二维),平均下来所需的信息量。

H(X,Y)=xXyYp(x,y)log(p(x,y)) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g ( p ( x , y ) )

条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性(期望值)。

H(Y|X)=xXp(x)H(Y|X=x)      =xXp(x)yYp(y|x)logp(y|x)    =xXyYp(x,y)logp(y|x) H ( Y | X ) = ∑ x ∈ X p ( x ) H ( Y | X = x )             = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y | x ) l o g p ( y | x )         = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( y | x )

条件熵=联合熵-单独的熵 即H(Y|X)=H(X,Y)-H(X),证明如下:
H(X,Y)=x,yp(x,y)logp(x,y)     =x,yp(x,y)log(p(y|x)p(x))          =x,yp(x,y)logp(y|x)x,yp(x,y)logp(x)     =H(Y|X)x,yp(x,y)logp(x)       =H(Y|X)xyp(x,y)logp(x)       =H(Y|X)xlogp(x)yp(x,y)     =H(Y|X)x(logp(x))p(x)    =H(Y|X)xp(x)logp(x) =H(Y|X)+H(X) H ( X , Y ) = − ∑ x , y p ( x , y ) l o g p ( x , y )           = − ∑ x , y p ( x , y ) l o g ( p ( y | x ) p ( x ) )                     = − ∑ x , y p ( x , y ) l o g p ( y | x ) − ∑ x , y p ( x , y ) l o g p ( x )           = H ( Y | X ) − ∑ x , y p ( x , y ) l o g p ( x )               = H ( Y | X ) − ∑ x ∑ y p ( x , y ) l o g p ( x )               = H ( Y | X ) − ∑ x l o g p ( x ) ∑ y p ( x , y )           = H ( Y | X ) − ∑ x ( l o g p ( x ) ) p ( x )         = H ( Y | X ) − ∑ x p ( x ) l o g p ( x )   = H ( Y | X ) + H ( X )


这里写图片描述

互信息

互信息表示一个联合分布中的两个信息的纠缠程度或者互相影响那部分的信息量

I(X,Y)=H(X)+H(Y)H(X,Y) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y )

I(X,Y)=H(Y)H(Y|X)=xXyYp(x,y)logp(x,y)p(x)p(y) I ( X , Y ) = H ( Y ) − H ( Y | X ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y )

决策树中的信息增益就是互信息!


这里写图片描述

参考:
https://www.cnblogs.com/kyrieng/p/8694705.html
https://blog.csdn.net/haolexiao/article/details/70142571
https://blog.csdn.net/u014422406/article/details/77899293

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值