1. 离散集的平均自信息量----熵
1.1 What is “Entropy”
熵是随机变量不确定度的度量
在介绍熵的概念前,我们先引入一些前导概念
1.1.1 自信息和条件自信息
如何理解自信息,我们可以从以下几个角度切入
- 表示事件不确定性的大小
- 表示事件发生带来的信息量的多少。事件一旦发生,就消除了不确定性,从而带来了信息量。
- 表示为了确定事情的发生,所需信息量的多少
对于事件集合 X = { x 1 , x 2 , x 3 . . . . x n } X=\lbrace x_1,x_2,x_3....x_n \rbrace X={x1,x2,x3....xn},其中某一事件 x i x_i xi发生的概率为 p i p_i pi,则自信息量的定义为:
I ( x i ) = − log p i I(x_i)=-\log p_i I(xi)=−logpi
其中 I ( x i ) ⩾ 0 I(x_i) \geqslant 0 I(xi)⩾0,且随 p i p_i pi减小而增大。(底数为2时,自信息的单位是bit)
那什么是条件自信息呢?
倘若事件Y发生后收获的信息会改变事件X的不确定性,则在Y的影响下,此时事件X的不确定性就是其的条件自信息,其表达式如下:
I ( x ∣ y ) = − log p ( x ∣ y ) I(x|y)=-\log p(x|y) I(x∣y)=−logp(x∣y)
1.1.2 熵
令 X X X表示输入离散事件集合 (简称集) ,其中 X = { x k , k = 1 , 2 , . . . K } X=\lbrace x_k , k=1,2,...K \rbrace X={xk,k=1,2,...K},对应每个事件 x k ∈ X x_k\in X xk∈X,相应概率为 Q ( x k ) Q(x_k) Q(xk),简记为 Q k Q_k Qk,且
∑ k = 1 K Q k = 1 \displaystyle\sum^{K}_{k=1}\space Q_k=1 k=1∑K Qk=1,其中 Q k ≥ 0 , k = 1 , 2 , . . . K \space Q_k\geq0,k=1,2,...K Qk≥0,k=1,2,...K
以 { X , Q ( x ) } \lbrace X,Q(x) \rbrace {X,Q(x)} 表示输入概率空间。
集 { X , Q ( x ) } \lbrace X,Q(x) \rbrace {X,Q(x)} 上定义的自信息量 I ( x ) I(x) I(x)的数学期望表示如下:
H ( x ) = = d e f E [ I ( x ) ] = ∑ x ∈ X Q ( x ) I ( x ) = − ∑ Q ( x ) log Q ( x ) H(x)\space\stackrel {\mathrm{def}} {==} \space E[I(x)]=\displaystyle \sum^{}_{x \in X}{Q(x)I(x)}=-\sum Q(x) \space\log Q(x) H(x) ==def E[I(x)]=x∈X∑Q(x)I(x)=−∑Q(x) logQ(x)
H ( x ) H(x) H(x) 称为 集 X X X 的平均自信息量,又称作是 集 X X X 的信息熵,简称熵。 其表示了 集 X X X 中事件出现的平均不确定性,几位了确定 集 X X X 中出现的一个事件平均所需的信息量(观测之前),或*集 X X X*中每出现一事件平均给出的信息量(观测之后)。
1.1.3 条件熵
定义在 集 { Y , Ω ( y ) } \lbrace Y,\Omega(y) \rbrace {Y,Ω(y)} 上的随机变量 H ( X ∣ y ) H(X|y) H(X∣y)的数学期望
H ( X ∣ Y ) = = d e f E [ H ( X ∣ y ) ] = ∑ x Ω ( y ) H ( X ∣ y ) = = d e f − ∑ x ∑ y P ( x , y ) log P ( x ∣ y ) H(X|Y)\space\stackrel {\mathrm{def}} {==} \space E\space[H(X|y)]\space=\space\displaystyle \sum^{}_{x }{\Omega(y)\space H(X|y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x|y) H(X∣Y) ==def E [H(X∣y)] = x∑Ω(y) H(X∣y) ==def −x∑y∑P(x,y) logP(x∣y)
称做 集 X X X 是相对于 集 Y Y Y 的条件熵. 当 集 X X X 和 集 Y Y Y 统计独立时,有
H ( X ∣ Y ) = H ( X ) H(X|Y)=H(X) H(X∣Y)=H(X)
1.1.4 联合熵
定义在 集 { ( X , Y ) , P ( x , y ) } \lbrace (X,Y),P(x,y) \rbrace {(X,Y),P(x,y)} 上的随机变量 I ( x , y ) = − log P ( x , y ) I(x,y)=-\log P(x,y) I(x,y)=−logP(x,y)的数学期望
H ( X , Y ) = = d e f E [ I ( x , y ) ] = ∑ x P ( x , y ) I ( x , y ) = = d e f − ∑ x ∑ y P ( x , y ) log P ( x , y ) H(X,Y)\space\stackrel {\mathrm{def}} {==} \space E\space[I(x,y)]\space=\space\displaystyle \sum^{}_{x }{P(x,y)\space I(x,y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x,y) H(X,Y) ==def E [I(x,y)] = x∑P(x,y) I(x,y) ==def −x∑y∑P(x,y) logP(x,y)
称做 是集 X X X 和 集 Y Y Y 的联合熵.
然后由
① P ( x , y ) = Q ( x ) P ( y ∣ x ) = Ω ( y ) P ( x ∣ y ) P(x,y)=Q(x)P(y|x)=\Omega(y)P(x|y) P(x,y)=Q(x)P(y∣x)=Ω(y)P(x∣y)
② H ( x ) = = d e f E [ I ( x ) ] = ∑ x ∈ X Q ( x ) I ( x ) = − ∑ Q ( x ) log Q ( x ) H(x)\space\stackrel {\mathrm{def}} {==} \space E[I(x)]=\displaystyle \sum^{}_{x \in X}{Q(x)I(x)}=-\sum Q(x) \space\log Q(x) H(x) ==def E[I(x)]=x∈X∑Q(x)I(x)=−∑Q(x) logQ(x)
③ H ( X ∣ Y ) = = d e f E [ H ( X ∣ y ) ] = ∑ x Ω ( y ) H ( X ∣ y ) = = d e f − ∑ x ∑ y P ( x , y ) log P ( x ∣ y ) H(X|Y)\space\stackrel {\mathrm{def}} {==} \space E\space[H(X|y)]\space=\space\displaystyle \sum^{}_{x }{\Omega(y)\space H(X|y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x|y) H(X∣Y) ==def E [H(X∣y)] = x∑Ω(y) H(X∣y) ==def −x∑y∑P(x,y) logP(x∣y)
④ H ( X , Y ) = = d e f E [ I ( x , y ) ] = ∑ x P ( x , y ) I ( x , y ) = = d e f − ∑ x ∑ y P ( x , y ) log P ( x , y ) H(X,Y)\space\stackrel {\mathrm{def}} {==} \space E\space[I(x,y)]\space=\space\displaystyle \sum^{}_{x }{P(x,y)\space I(x,y)}\space\stackrel {\mathrm{def}} {==}\space-\sum ^{}_{x}\sum^{}_{y} P(x,y) \space\log P(x,y) H(X,Y) ==def E [I(x,y)] = x∑P(x,y) I(x,y) ==def −x∑y∑P(x,y) logP(x,y)
联合推导出
⑤ H ( X , Y ) = H ( X ) + H ( X ∣ Y ) = H ( Y ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(X|Y) = H(Y) + H(Y|X) H(X,Y)=H(X)+H(X∣Y)=H(Y)+H(Y∣X)
式 ⑤ 表述了信息的可加性。当集 X X X 和 集 Y Y Y 统计独立时
H ( X , Y ) = H ( X ) + H ( Y ) H(X,Y) = H(X) + H(Y) H(X,Y)=H(X)+H(Y)