熵简介

如果 X 为一个离散变量,则可以根据以下式子计算熵

H(X)=xRp(x)log2p(x)

其中约定 0log0=0 ,该公式定义的熵的单位为二进制位(bit)。该公式可以理解为描述一个随机变量的不确定性。熵越大,不确定性越大。

联合熵&条件熵

如果 X,Y 是一对离散型随机变量 X,Yp(x,y) ,则 X,Y 的联合熵 H(X,Y) 定义为

H(X,Y)=xXyYp(x,y)logp(x,y)

实际上描述的是表达一对随机变量平均所需要的信息量。
在给定 X 的情况下,随机变量Y的条件熵定义为
H(Y|X)=xXp(x)H(Y|X)=xXp(x)yYp(y|x)logp(y|x)=xXyYp(y,x)logp(y|x)

H(X,Y) 展开,可得
H(X,Y)=xXyYp(x,y)log[p(y|x)p(x)]=xXyYp(x,y)[logp(y|x)+logp(x)]=xXyYp(x,y)logp(y|x)xXyYp(x,y)logp(x)=H(Y|X)+H(X)

由此可得熵的链式规则,
H(X1,X2,...,Xn)=H(X1)+H(X2|X1)+...+H(Xn|X1,...,Xn1)

互信息

I(X,Y)=H(Y)H(Y|X)

反映的是得到 X 的信息之后,Y的不确定性减少的程度。

相对熵

相对熵也被称为Kullback-Leibler距离,即KL距离,衡量的是相同事件空间中的两个概率分布的差异的测度。其定义为

D(p(x)||q(x))=xXp(x)logp(x)q(x),D(p(x)||q(x))=Ep(logp(x)q(x))

可知当两个随机分布完全相同时,其相对熵为0,当差别增加时,其相对熵也增加。
通过KL距离的表示,互信息也可以表示为联合分布与独立性的差距,即
I(X,Y)=D(p(x,y)||p(x)p(y))

交叉熵

交叉熵是用来衡量估计模型与真实概率之间的差距。
如果一个随机变量 Xp(x) q(x) 用于近似 p(x) 的分布,那么变量 X 与模型q之间的交叉熵表示为

H(X,q)=H(X)+D(p||q)=xp(x)logq(x)=EP(log1q(x))

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值