熵的基础理论(信息熵、交叉熵、霍夫曼编码、条件熵、互信息、KL散度)


信息量(Information)

信息量用于度量信息的不确定性,信息量与事件发生的概率有关,事件随机性越大,信息量越大.

若事件 X X X的信息量为 I ( X ) I(X) I(X),由于观察两个独立事件同时发生时获得的信息量等于观察到事件各自发生时获得的信息量之和,即
信息量满足
I ( X , Y ) = I ( X ) + I ( Y ) I(X, Y)=I(X) + I(Y) I(X,Y)=I(X)+I(Y)
P ( X , Y ) = P ( X ) P ( Y ) P(X, Y)=P(X)P(Y) P(X,Y)=P(X)P(Y),故 X X X的信息量定义为
I ( X ) = − log ⁡ P ( X ) I(X) = -\log P(X) I(X)=logP(X)


信息熵(Information Entropy)

信息熵用于衡量随机事件的不确定性,是所有随机事件信息量的期望. 若随机变量 X X X的分布为 P ( X ) P(X) P(X),则 X X X的信息熵
H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) H(X)=-\sum_{x \in X}P(x)\log P(x) H(X)=xXP(x)logP(x)


熵的性质

  • 熵只依赖与随机变量的分布,与随机变量的取值无关;

  • 经典熵的定义中,对数的底数为2,单位为bit;

  • 随机变量的可能值越多,信息熵就越大,不确定性越大;

  • 随机变量均匀分布时,熵最大,且 0 ≤ H ( X ) ≤ log ⁡ N 0 \leq H(X)\leq \log N 0H(X)logN


证明: 0 ≤ H ( X ) ≤ log ⁡ N 0 \leq H(X)\leq \log N 0H(X)logN

由于所有事件的概率之和为1(约束条件),构造拉个朗日函数
L ( P , λ ) = − ∑ x P ( x ) log ⁡ P ( x ) + λ ( ∑ x P ( x ) − 1 ) L(P, \lambda)=-\sum_x P(x)\log P(x) +\lambda\left (\sum_x P(x) - 1\right) L(P,λ)=xP(x)logP(x)+λ(xP(x)1)

求解得到极值处满足 P ( x 1 ) = ⋯ = P ( x N ) = e λ − 1 = 1 / N P(x_1)=\cdots=P(x_N)=e^{\lambda - 1}=1/N P(x1)==P(xN)=eλ1=1/N,因此 H ( X ) ≤ log ⁡ N H(X)\leq \log N H(X)logN


熵与霍夫曼编码

考虑具有4种可能状态 { a , b , c , d } \{a, b, c, d\} {a,b,c,d}的随机变量 X X X

当每个状态服从均匀分布,即概率均为1/4,若使用霍夫曼编码:00、01、10、11,表示上述4种状态,则平均编码长度为
1 4 × 2 × 4 = 2 \frac{1}{4}\times2\times4=2 41×2×4=2

亦可理解为,给定一个状态,平均询问多少次可确定该状态,编码图如下:

当每个状态的概率分别为 ( 1 2 , 1 4 , 1 8 , 1 8 ) (\dfrac{1}{2}, \dfrac{1}{4}, \dfrac{1}{8}, \dfrac{1}{8}) (21,41,81,81),若使用霍夫曼编码:0、10、110、111,表示上述4种状态,则平均编码长度为
1 2 × 1 + 1 4 × 2 + 2 × 1 8 × 3 = 1.75 \frac{1}{2}\times 1 + \frac{1}{4} \times 2 + 2\times \frac{1}{8}\times 3=1.75 21×1+41×2+2×81×3=1.75
编码图如下:

不难计算出, X X X的第一种分布的信息熵为
H ( X ) = − 4 × 1 4 × log ⁡ 2 1 4 = 2 H(X)=-4\times\frac{1}{4}\times\log_2\frac{1}{4}=2 H(X)=4×41×log241=2

X X X的第二种分布的信息熵为
H ( X ) = − 1 2 log ⁡ 2 1 2 − 1 4 log ⁡ 2 1 4 − 1 8 log ⁡ 2 1 8 − 1 8 log ⁡ 2 1 8 = 1.75 H(X)=-\frac{1}{2}\log_2\frac{1}{2} -\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}-\frac{1}{8}\log_2\frac{1}{8}=1.75 H(X)=21log22141log24181log28181log281=1.75

可见, X X X的信息熵刚好等于霍夫曼编码长度(最短编码长度).


条件熵(Conditional Entropy)

条件熵表示已知 X X X的条件下, Y Y Y的不确定性。定义为已知 X X X的条件下, Y Y Y的条件概率分布的熵对 X X X的数学期望,即
H ( Y ∣ X ) = ∑ x ∈ X P ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X P ( x ) ∑ y ∈ Y P ( y ∣ x ) log ⁡ P ( y ∣ x ) = − ∑ x , y P ( x , y ) log ⁡ P ( y ∣ x ) \begin{aligned}H(Y|X) & =\sum_{x \in X} P(x)H(Y|X=x) \\ & = -\sum_{x \in X} P(x)\sum_{y \in Y}P(y|x) \log P(y|x) \\ & = -\sum_{x,y}P(x, y) \log P(y|x) \end{aligned} H(YX)=xXP(x)H(YX=x)=xXP(x)yYP(yx)logP(yx)=x,yP(x,y)logP(yx)


联合熵(Joint Entropy)

将一维随机变量分布推广到多维随机变量分布,则联合熵
H ( X , Y ) = − ∑ x , y P ( x , y ) log ⁡ P ( x , y ) H(X, Y)=-\sum_{x,y} P(x, y)\log P(x, y) H(X,Y)=x,yP(x,y)logP(x,y)


信息熵、联合熵与条件熵
H ( Y ∣ X ) = − ∑ x , y P ( x , y ) log ⁡ P ( y ∣ x ) = − ∑ x , y P ( x , y ) [ log ⁡ P ( x ) − log ⁡ P ( x , y ) ] = H ( X , Y ) − ∑ x , y P ( x , y ) log ⁡ P ( x ) = H ( X , Y ) − ∑ x P ( x ) log ⁡ P ( x ) = H ( X , Y ) − H ( X ) \begin{aligned}H(Y|X) & =-\sum_{x,y}P(x, y) \log P(y|x) \\ & = -\sum_{x,y} P(x, y) [\log P(x) - \log P(x, y)]\\ & = H(X, Y) - \sum_{x,y} P(x, y) \log P(x)\\ & = H(X, Y) - \sum_{x} P(x) \log P(x) \\ & = H(X, Y) - H(X) \end{aligned} H(YX)=x,yP(x,y)logP(yx)=x,yP(x,y)[logP(x)logP(x,y)]=H(X,Y)x,yP(x,y)logP(x)=H(X,Y)xP(x)logP(x)=H(X,Y)H(X)

即条件熵 H ( Y ∣ X ) H(Y|X) H(YX)等于联合熵 H ( X , Y ) H(X, Y) H(X,Y)减去信息熵 H ( X ) H(X) H(X) X X X为已知样本分布(熵已知),最大化条件熵等价于最大化交叉熵


交叉熵(Cross Entropy)

对于随机变量 X X X使用霍夫曼编码,当其服从均匀分布时,其平均编码长度为2;当其服从 ( 1 2 , 1 4 , 1 8 , 1 8 ) (\dfrac{1}{2}, \dfrac{1}{4}, \dfrac{1}{8}, \dfrac{1}{8}) (21,41,81,81)分布时,其平均编码长度为1.75,但若不知其真实分布,使用图1所示的编码方式,则其平均编码长度为
1 2 × 2 + 1 4 × 2 + 1 8 × 2 + 1 8 × 2 = 2 \frac{1}{2}\times2+\frac{1}{4}\times2+\frac{1}{8}\times2+\frac{1}{8}\times2=2 21×2+41×2+81×2+81×2=2

显然大于真实分布对应的平均编码长度.

交叉熵用于衡量以非真实分布 Q ( X ) Q(X) Q(X)对应的霍夫曼树,编码来自于真实分布 P ( X ) P(X) P(X)样本的平均长度,即
H ( P , Q ) = − ∑ x ∈ X P ( x ) log ⁡ Q ( x ) H(P, Q)=-\sum_{x\in X} P(x) \log Q(x) H(P,Q)=xXP(x)logQ(x)
若真实分布可能为 P 1 ( X ) = ( 1 2 , 1 4 , 1 8 , 1 8 ) ,   P 2 ( X ) = ( 3 4 , 1 8 , 1 16 , 1 16 ) P_1(X)=(\dfrac{1}{2}, \dfrac{1}{4}, \dfrac{1}{8}, \dfrac{1}{8}),\ P_2(X)=(\dfrac{3}{4}, \dfrac{1}{8}, \dfrac{1}{16}, \dfrac{1}{16}) P1(X)=(21,41,81,81), P2(X)=(43,81,161,161),非真实分布 Q ( X ) = ( 1 4 , 1 4 , 1 4 , 1 4 ) Q(X)=(\dfrac{1}{4}, \dfrac{1}{4}, \dfrac{1}{4}, \dfrac{1}{4}) Q(X)=(41,41,41,41)

则不同真实分布的信息熵
H ( P 1 ) = 1.75 , H ( P 2 ) = 1.186 H(P_1)=1.75,H(P_2)=1.186 H(P1)=1.75H(P2)=1.186

交叉熵
H ( P 1 , Q ) = − 1 2 × log ⁡ 2 1 4 − 1 4 × log ⁡ 2 1 4 − 2 × 1 8 × log ⁡ 2 1 4 = 2 H ( P 2 , Q ) = − 3 4 × log ⁡ 2 1 4 − 1 8 × log ⁡ 2 1 4 − 2 × 1 16 × log ⁡ 2 1 4 = 2 H(P_1,Q)=-\frac{1}{2}\times\log_2\frac{1}{4}-\frac{1}{4}\times\log_2\frac{1}{4}-2\times\frac{1}{8} \times\log_2\frac{1}{4}=2\\ H(P_2, Q)=-\frac{3}{4}\times\log_2\frac{1}{4}-\frac{1}{8}\times\log_2\frac{1}{4}-2\times\frac{1}{16}\times\log_2\frac{1}{4}=2 H(P1,Q)=21×log24141×log2412×81×log241=2H(P2,Q)=43×log24181×log2412×161×log241=2

对于确定的非真实分布 Q ( X ) Q(X) Q(X),无论真实分布 P ( X ) P(X) P(X)如何,交叉熵 H ( P , Q ) H(P, Q) H(P,Q)不变,且交叉熵
H ( P , Q ) ≥ H ( P ) , 当 前 仅 当 P = Q 时 等 式 成 立 H(P, Q)\geq H(P),\quad 当前仅当P=Q时等式成立 H(P,Q)H(P),P=Q

交叉熵越小,则非真实分布越接近于真实分布,故可通过最小化交叉熵,逐渐逼近样本的真实分布.


Relative Entropy / KL-Divergence

相对熵表示随机变量不同概率分布的差异性,从编码的角度来说,即以理论/拟合分布 Q Q Q编码真实分布 P P P所需的额外比特.

定义为交叉熵与信息熵的差,即
D K L ( P ∣ ∣ Q ) = H ( P , Q ) − H ( P ) D_{KL}(P||Q)=H(P, Q)-H(P) DKL(PQ)=H(P,Q)H(P)


相对熵的性质

  • 相对熵一般不具有对称性,即一般情况下, D ( P ∣ ∣ Q ) D(P||Q) D(PQ)不等于 D ( Q ∣ ∣ P ) D(Q||P) D(QP)
  • 相对熵越大,分布的差异性越大,若两分布完全相同,则相对熵为0;
  • 相对熵非负;
  • 机器学习的模型学习任务中,样本已知(信息熵为常数),极小化交叉熵等价于极小化相对熵.

Mutual Information

互信息表示随机事件之间的相关性,即已知一个变量前提下,对消除另一个变量不确定性提供的信息量,即
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y)=H(X)-H(X|Y) = H(Y)-H(Y|X) I(X;Y)=H(X)H(XY)=H(Y)H(YX)

直观理解为已知一个变量而使得另一个变量不确定性减少的程度.


信息熵、 联合熵、条件熵与互信息(信息增益)间的关系:

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值