信息论中的熵

概念

在信息论中,熵表示的是不确定性的量度。也可以表示为描述一个随机变量的不确定性的数量。

一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

所以熵也可以称为一个变量包含的信息量的大小。


另一种解释,参考
http://blog.csdn.net/qtlyx/article/details/50819094

如果有一个系统S内存在多个事件S = {E1,…,En}, 每个事件的机率分布 P = {p1, …,pn},则每个事件本身的讯息为
  Ie=log2pi
  (对数以2为底,单位是位元(bit))
  Ie=lnpi
  (对数以e为底,单位是纳特/nats)
  如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为
  Ie=log2126=4.7
  ;而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为
Ie=log212500=11.3
  整个系统的平均消息量为
Hs=ni=1piIe=ni=1pilog2pi

 这个平均消息量就是消息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。

公式:

H(Y)=- yP(Y)logP(Y)


另一种:

熵H(X)=-Σx∈Ωp(x)logxp(x)

  • 假设PX(x)是随机变量X的分布
  • 基本输出字母表是Ω
  • 单位:bits
  • 熵是X的平均信息量,是自信息量的期望
    E(X)=Σx∈Ω p(x) x
    I(X)=-logp(x),取2为底,I(X)=-log2p(x)
    E(I(X)=E(-log2p(x))= Σx∈Ω p(x)(-log2p(x)) = H(X)
    H(X)=H(p)=Hp(X)=HX(p)=H(pX)

熵的例子
• 掷均匀硬币,Ω={H,T}
p(H)=.5, p(T)=.5
H(p)=-0.5log20.5 (-0.5log20.5)=1
• 32面的均匀股子,掷股子
H(p)=-32((1/32)log2(1/32))=5
• 事实上,掷的次数21=2, 25=32(perplexity)
• 掷不均匀硬币
p(H)=0.2, p(T)=0.8, H(p)=0.722(不确定性更大)
p(H)=0.01, p(T)=0.99, H(p)=0.081

什么时候H(p)=0?
– 试验结果事先已经知道
– 即:∃x∈Ω, p(x)=1; ∀y∈Ω, p(y)=0 if y≠x
• 熵有没有上限?
– 没有一般的上限
– 对于|Ω|=n,H(p)≤-log2n
– 均衡分布的熵是最大的

等概率分布
– 2个输出的等概率分布,H(p)=1bit
– 32个输出的等概率分布,H(p)=5bits
– 43亿输出的等概率分布,H(p)=32bits
• 非等概率分布
– 32个输出,2个0.5,其余为0,H(p)=1bit
– 怎样比较具有不同数量输出的“熵”?困惑度(perplexity)

困惑度(perplexity)即混乱度
G(p)=2的H(p)次方,在NLP中,如果词表中的词具有统一的分布概率,则最难预测,熵最大,混乱度最高
反之,分布越不均衡,熵越小,混乱度越小

条件熵
给定随机变量X的情况下,随机变量Y的条件熵定义为:
H(Y|X)=Σx∈Ωp(x)H(Y|X=x)
= Σx∈Ωp(x)(-Σy∈Ψp(y|x)log2p(y|x))
=-Σx∈Ω Σy∈Ψp(y|x)p(x)log2p(y|x)
= -Σx∈Ω Σy∈Ψp(x,y)log2p(y|x)
p(x,y)是加权,权值是没有条件的

联合熵(joint entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量
联合熵(joint entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量

熵的性质

熵是非负的
H(X)≥0
H(X,Y)=H(Y|X) H(X)
H(X,Y)=H(X|Y) H(Y)
H(X,Y)≤H(X) H(Y),X和Y独立时相等
H(Y|X)≤H(Y),条件熵比熵小

更多请参考:
http://blog.csdn.net/erli11/article/details/21606235
http://blog.csdn.net/qtlyx/article/details/50819094

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值