信息论基本概念(熵、联合熵、条件熵、相对熵、互信息)讲述与推导

熵(Entropy)

​ 熵是随机变量的不确定性的度量。设  X    X   是一个离散的随机变量,其取值空间为  X    X   ,概率密度函数 p(x)=P(X=x),xX p ( x ) = P ( X = x ) , x ∈ X ,则离散型随机变量  X    X   的信息熵  H(X)    H ( X )   为,

H(X)=xXp(x)logp(x), log2(bit) H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) ,   对 数 log 所 用 的 底 一 般 为 2 , 因 此 其 单 位 为 比 特 ( b i t )

我们知道,如果 Xp(x) X ∼ p ( x ) ,则随机变量  Y=g(X)    Y = g ( X )   的数学期望  EY    E Y   为,

EY=Epg(X)=xXg(x)p(x)Epg(X)g(X)p(x) E Y = E p g ( X ) = ∑ x ∈ X g ( x ) p ( x ) , 其 中 E p g ( X ) 表 示 函 数 g ( X ) 关 于 概 率 分 布 p ( x ) 的 期 望

特别地,当  g(X)=logp(X)    g ( X ) = − log ⁡ p ( X )   时,因此随机变量  X    X   的信息熵可以解释为 H(X)=Elog1p(X) H ( X ) = E log ⁡ 1 p ( X )

另外我们知道,一条信息的信息量与其不确定性(概率)有直接的关系,由此我们可以得到,随机变量  X=x    X = x   的信息量为  log1p(X=x)   log ⁡ 1 p ( X = x ) ,所以随机变量  X    X   的信息熵  H(X)    H ( X )   还可以解释为随机变量  X    X   的信息量的期望(平均信息量)

联合熵(Joint entropy)与条件熵(Conditional entropy)

如果随机变量  (X,Y)p(x,y)    ( X , Y ) ∼ p ( x , y )   ,那么其联合熵  H(X,Y)    H ( X , Y )   为,

H(X,Y)=xXyYp(x,y)logp(x,y)=Elogp(X,Y) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) = − E log ⁡ p ( X , Y )

一样地,其条件熵  H(Y|X)    H ( Y | X )   为,

H(Y|X)=xXp(x)H(Y|X=x)=xXp(x)yYp(y|x)logp(y|x)=xXyYp(x,y)logp(y|x)=Elogp(Y|X) H ( Y | X ) = ∑ x ∈ X p ( x ) H ( Y | X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y | x ) log ⁡ p ( y | x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y | x ) = − E log ⁡ p ( Y | X )

另外, H(X,Y)=H(X)+H(Y|X) H ( X , Y ) = H ( X ) + H ( Y | X ) ,证明如下,

H(X,Y)=xXyYp(x,y)logp(x,y)=xXyYp(x,y)logp(x)p(y|x)=xXyYp(x,y)logp(x)xXyYp(x,y)logp(y|x)=xXp(x)logp(x)+H(Y|X)=H(X)+H(Y|X) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ) p ( y | x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y | x ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) + H ( Y | X ) = H ( X ) + H ( Y | X )

其中,

yYp(x,y)=p(x) ∑ y ∈ Y p ( x , y ) = p ( x ) 为 离 散 型 随 机 变 量 的 联 合 分 布 变 为 边 缘 分 布

相对熵(交叉熵(Cross entropy))(Relative entropy)与互信息(Mutual information)

相对熵是两个随机分布之间距离的度量,相对熵  D(p||q)    D ( p | | q )   度量当真实分布为  p(x)    p ( x )   而假定分布为  q(x)    q ( x )   时的差异性

D(p||q)=xXp(x)logp(x)q(x) D ( p | | q ) = ∑ x ∈ X p ( x ) log ⁡ p ( x ) q ( x )

互信息(信息增益)是一个随机变量包含另一个随机变量信息量的度量,也可以说是在给定一个随机变量的条件下,原随机变量的不确定性的减少量,

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))I(X;Y)p(x,y)p(x)p(y) I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = D ( p ( x , y ) | | p ( x ) p ( y ) ) 即 互 信 息 I ( X ; Y ) 为 联 合 分 布 p ( x , y ) 和 乘 积 分 布 p ( x ) p ( y ) 之 间 的 相 对 熵

另外,熵与互信息的关系,

I(X;Y)=H(Y)H(Y|X)=H(X)H(X|Y) I ( X ; Y ) = H ( Y ) − H ( Y | X ) = H ( X ) − H ( X | Y )
,证明如下,

I(X;Y)=xX,yYp(x,y)logp(x,y)p(x)p(y)=xX,yYp(x,y)logp(x|y)p(x)=xX,yYp(x,y)logp(x)(xX,yYp(x,y)logp(x|y))=H(X)H(X|Y) I ( X ; Y ) = ∑ x ∈ X , y ∈ Y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = ∑ x ∈ X , y ∈ Y p ( x , y ) log ⁡ p ( x | y ) p ( x ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log ⁡ p ( x ) − ( − ∑ x ∈ X , y ∈ Y p ( x , y ) log ⁡ p ( x | y ) ) = H ( X ) − H ( X | Y )

  • 7
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值