信息论基础--信息量与熵

熵是衡量随机变量不确定度的度量。自信息表示事件发生的不确定性和信息量,条件自信息是在已知其他事件发生后对某一事件不确定性的影响。信息熵是所有可能事件自信息的平均值,而条件熵则考虑了在给定条件下事件的不确定性。联合熵描述两个或多个随机变量共同的不确定性。这些概念在数据处理和通信中具有重要应用。
摘要由CSDN通过智能技术生成

1. 离散集的平均自信息量----熵

1.1 What is “Entropy”

熵是随机变量不确定度的度量

在介绍熵的概念前,我们先引入一些前导概念

1.1.1 自信息和条件自信息

如何理解自信息,我们可以从以下几个角度切入

  • 表示事件不确定性的大小
  • 表示事件发生带来的信息量的多少。事件一旦发生,就消除了不确定性,从而带来了信息量。
  • 表示为了确定事情的发生,所需信息量的多少

对于事件集合 X = { x 1 , x 2 , x 3 . . . . x n } X=\lbrace x_1,x_2,x_3....x_n \rbrace X={x1,x2,x3....xn},其中某一事件 x i x_i xi发生的概率为 p i p_i pi,则自信息量的定义为:

I ( x i ) = − log ⁡ p i I(x_i)=-\log p_i I(xi)=logpi

其中 I ( x i ) ⩾ 0 I(x_i) \geqslant 0 I(xi)0,且随 p i p_i pi减小而增大。(底数为2时,自信息的单位是bit)

那什么是条件自信息呢?
倘若事件Y发生后收获的信息会改变事件X的不确定性,则在Y的影响下,此时事件X的不确定性就是其的条件自信息,其表达式如下:

I ( x ∣ y ) = − log ⁡ p ( x ∣ y ) I(x|y)=-\log p(x|y) I(xy)=logp(xy)

1.1.2 熵

X X X表示输入离散事件集合 (简称集) ,其中 X = { x k , k = 1 , 2 , . . . K } X=\lbrace x_k , k=1,2,...K \rbrace X={xk,k=1,2,...K},对应每个事件 x k ∈ X x_k\in X xkX,相应概率为 Q ( x k ) Q(x_k) Q(xk),简记为 Q k Q_k Qk,且

∑ k = 1 K   Q k = 1 \displaystyle\sum^{K}_{k=1}\space Q_k=1 k=1K Qk=1,其中   Q k ≥ 0 , k = 1 , 2 , . . . K \space Q_k\geq0,k=1,2,...K  Qk0,k=1,2,...K

{ X , Q ( x ) } \lbrace X,Q(x) \rbrace {X,Q(x)} 表示输入概率空间

{ X , Q ( x ) } \lbrace X,Q(x) \rbrace {X,Q(x)} 上定义的自信息量 I ( x ) I(x) I(x)的数学期望表示如下:

H ( x )   = = d e f   E [ I ( x ) ] = ∑ x ∈ X Q ( x ) I ( x ) = − ∑ Q ( x )   log ⁡ Q ( x ) H(x)\space\stackrel {\mathrm{def}} {==} \space E[I(x)]=\displaystyle \sum^{}_{x \in X}{Q(x)I(x)}=-\sum Q(x) \space\log Q(x) H(x) ==def E[I(x)]=xXQ(x)I(x)=Q(x) logQ(x)

H ( x ) H(x) H(x) 称为 X X X 的平均自信息量,又称作是 X X X 的信息熵,简称熵。 其表示了 X X X 中事件出现的平均不确定性,几位了确定 X X X 中出现的一个事件平均所需的信息量(观测之前),或*集 X X X*中每出现一事件平均给出的信息量(观测之后)。

1.1.3 条件熵

定义在 { Y , Ω ( y ) } \lbrace Y,\Omega(y) \rbrace {Y,Ω(y)} 上的随机变量 H ( X ∣ y ) H(X|y) H(Xy)的数学期望

H ( X ∣ Y )   = = d e f   E   [ H ( X ∣ y ) ]   =   ∑ x Ω ( y )   H ( X ∣ y )   = = d e f   − ∑ x ∑ y P ( x , y )   log ⁡ P ( x ∣ y ) H(X|Y)\space\stackrel {\mathrm{def}} {==} \space E\space[H(X|y)]\space=\space\displaystyle \sum^{}_{x }{\Omega(y)\space H(X|y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x|y) H(XY) ==def E [H(Xy)] = xΩ(y) H(Xy) ==def xyP(x,y) logP(xy)

称做 X X X 是相对于 Y Y Y 的条件熵. X X X Y Y Y 统计独立时,有

H ( X ∣ Y ) = H ( X ) H(X|Y)=H(X) H(XY)=H(X)

1.1.4 联合熵

定义在 { ( X , Y ) , P ( x , y ) } \lbrace (X,Y),P(x,y) \rbrace {(X,Y),P(x,y)} 上的随机变量 I ( x , y ) = − log ⁡ P ( x , y ) I(x,y)=-\log P(x,y) I(x,y)=logP(x,y)的数学期望

H ( X , Y )   = = d e f   E   [ I ( x , y ) ]   =   ∑ x P ( x , y )   I ( x , y )   = = d e f   − ∑ x ∑ y P ( x , y )   log ⁡ P ( x , y ) H(X,Y)\space\stackrel {\mathrm{def}} {==} \space E\space[I(x,y)]\space=\space\displaystyle \sum^{}_{x }{P(x,y)\space I(x,y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x,y) H(X,Y) ==def E [I(x,y)] = xP(x,y) I(x,y) ==def xyP(x,y) logP(x,y)

称做 是 X X X Y Y Y 的联合熵.

然后由

P ( x , y ) = Q ( x ) P ( y ∣ x ) = Ω ( y ) P ( x ∣ y ) P(x,y)=Q(x)P(y|x)=\Omega(y)P(x|y) P(x,y)=Q(x)P(yx)=Ω(y)P(xy)
H ( x )   = = d e f   E [ I ( x ) ] = ∑ x ∈ X Q ( x ) I ( x ) = − ∑ Q ( x )   log ⁡ Q ( x ) H(x)\space\stackrel {\mathrm{def}} {==} \space E[I(x)]=\displaystyle \sum^{}_{x \in X}{Q(x)I(x)}=-\sum Q(x) \space\log Q(x) H(x) ==def E[I(x)]=xXQ(x)I(x)=Q(x) logQ(x)
H ( X ∣ Y )   = = d e f   E   [ H ( X ∣ y ) ]   =   ∑ x Ω ( y )   H ( X ∣ y )   = = d e f   − ∑ x ∑ y P ( x , y )   log ⁡ P ( x ∣ y ) H(X|Y)\space\stackrel {\mathrm{def}} {==} \space E\space[H(X|y)]\space=\space\displaystyle \sum^{}_{x }{\Omega(y)\space H(X|y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x|y) H(XY) ==def E [H(Xy)] = xΩ(y) H(Xy) ==def xyP(x,y) logP(xy)
H ( X , Y )   = = d e f   E   [ I ( x , y ) ]   =   ∑ x P ( x , y )   I ( x , y )   = = d e f   − ∑ x ∑ y P ( x , y )   log ⁡ P ( x , y ) H(X,Y)\space\stackrel {\mathrm{def}} {==} \space E\space[I(x,y)]\space=\space\displaystyle \sum^{}_{x }{P(x,y)\space I(x,y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x,y) H(X,Y) ==def E [I(x,y)] = xP(x,y) I(x,y) ==def xyP(x,y) logP(x,y)

联合推导出
H ( X , Y ) = H ( X ) + H ( X ∣ Y ) = H ( Y ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(X|Y) = H(Y) + H(Y|X) H(X,Y)=H(X)+H(XY)=H(Y)+H(YX)

式 ⑤ 表述了信息的可加性。当 X X X Y Y Y 统计独立时

H ( X , Y ) = H ( X ) + H ( Y ) H(X,Y) = H(X) + H(Y) H(X,Y)=H(X)+H(Y)

  • 14
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值