1. 信息量和信息熵
熵是表征系统混乱度/不确定度的物理量,在热力学、信息学中都有其各自的含义,而在机器学习更多沿用了信息熵的概念,即解释随机变量分布所需要的信息量(下文给出数学定义),或者从信息编码的角度来说,用某种方式对随机变量分布进行编码所需要的编码信息长度。
假设一个离散型随机变量 x x x,其分布为 p ( x ) p(x) p(x),如何计算其熵呢,我们先引入信息量的概念:事件发生所蕴含的信息。比如对于【中国队又没进世界杯】这个事件,我们已经习以为常,所以其中包含的信息量非常有限;而对于【中国队进了世界杯】,我们会很吃惊,所以其中包含的信息量非常大,需要大量的信息去确定它。也就是说,信息量和事件发生的概率有关。信息量的度量方式 I ( x ) I(x) I(x)应满足,p(x)越大,其信息量越小(事件越确定,所需要的编码长度越短),而p(x)越小,其信息量越大。
用
I
(
x
)
=
−
l
o
g
(
p
(
x
)
)
I(x)=-log(p(x))
I(x)=−log(p(x))来表示信息量(常用
e
e
e或2作为对数底),特殊的
0
l
o
g
0
=
0
0log0=0
0log0=0,即不可能事件的信息量为0。这种定义方式有如下几个优点:
(1)恒非负,且单调递减,当p(x)=1时为0(即必然事件的信息量为0),即满足上面单调递减的度量要求。
(2)对于两个独立事件
x
,
y
x,y
x,y,其同时发生的信息量等于两者分别发生的信息量之和,即
I
(
x
,
y
)
=
−
l
o
g
(
p
(
x
)
∗
p
(
y
)
)
=
−
l
o
g
p
(
x
)
−
l
o
g
p
(
y
)
=
I
(
x
)
+
I
(
y
)
I(x, y) = -log(p(x)*p(y))=-logp(x)-logp(y)=I(x)+I(y)
I(x,y)=−log(p(x)∗p(y))=−logp(x)−logp(y)=I(x)+I(y),符合常识。
(3)对数表示能够有效对概率值进行压缩。
对于上述离散型分布
p
(
x
)
p(x)
p(x),其信息熵可定义为
H
(
x
)
=
−
∑
i
p
(
x
i
)
l
o
g
p
(
x
i
)
H(x)=-\sum_{i}p(x_i)logp(x_i)
H(x)=−∑ip(xi)logp(xi),对于连续型分布,可写成
∫
−
p
(
x
)
l
o
g
p
(
x
)
d
x
\int -p(x)logp(x)dx
∫−p(x)logp(x)dx。也就是信息熵表示随机变量分布中信息量的期望,或者理解成信息平均编码长度。
信息熵的上下限:
0
≤
H
(
x
)
≤
l
o
g
n
0\le H(x) \le logn
0≤H(x)≤logn
证明:
对于左式,任意的概率值
p
(
x
)
,
−
l
o
g
(
p
(
x
)
)
≥
0
p(x), -log(p(x)) \ge0
p(x),−log(p(x))≥0,加权平均和非负显然成立
对于右式,
H
(
x
)
=
∑
i
p
(
x
i
)
l
o
g
1
p
(
x
i
)
H(x)=\sum_i p(x_i)log\frac{1}{p(x_i)}
H(x)=∑ip(xi)logp(xi)1,其中对数函数为严格凹函数,所以
H
(
x
)
≤
l
o
g
(
∑
i
p
(
x
i
)
∗
1
p
(
x
i
)
)
=
l
o
g
n
H(x) \le log(\sum_i p(x_i)*\frac{1}{p(x_i)})=logn
H(x)≤log(∑ip(xi)∗p(xi)1)=logn,等式仅当
p
(
x
1
)
=
p
(
x
2
)
=
.
.
.
=
p
(
x
n
)
=
1
n
p(x_1)=p(x_2)=...=p(x_n)=\frac{1}{n}
p(x1)=p(x2)=...=p(xn)=n1时成立
也就是说平均分布的信息熵最大,这也符合最大似然估计MLE的直觉。
2. 交叉熵和相对熵/KL散度
回到信息熵的定义
H
(
x
)
=
−
∑
i
p
(
x
i
)
l
o
g
p
(
x
i
)
H(x)=-\sum_{i}p(x_i)logp(x_i)
H(x)=−∑ip(xi)logp(xi),它的基本元素包括事情发生的概率
p
(
x
)
p(x)
p(x)和事件发生包含的信息量
−
l
o
g
p
(
x
)
-logp(x)
−logp(x)。前面在计算信息量的时候直接用
p
(
x
)
p(x)
p(x)(所以,也称为自信息量),那能否使用不同的随机事件分布来表示呢?答案是显然的,这样就是交叉熵的定义。
交叉熵:
H
(
p
,
q
)
=
−
∑
p
(
x
i
)
l
o
g
(
q
(
x
i
)
)
H(p,q)=-\sum p(x_i)log(q(x_i))
H(p,q)=−∑p(xi)log(q(xi)),可以理解成真实分布为
p
p
p,但用分布
q
q
q去表示的信息量的期望;或理解成对随机分布
p
(
x
)
p(x)
p(x)采用
q
(
x
)
q(x)
q(x)编码的平均长度。
那对于真实分布
p
(
x
)
p(x)
p(x),采用何种发生去表达其信息量更合适,或者说用何种编码方式其编码长度更短呢?为了回答这个问题,我们引出相对熵的概念:
相对熵:
D
(
p
∣
∣
q
)
=
∑
i
p
(
x
i
)
l
o
g
(
p
(
x
i
)
q
(
x
i
)
)
=
H
(
p
,
q
)
−
H
(
p
)
D(p||q)=\sum_i p(x_i)log(\frac{p(x_i)}{q(x_i)})=H(p,q)-H(p)
D(p∣∣q)=∑ip(xi)log(q(xi)p(xi))=H(p,q)−H(p),可以理解成交叉熵和熵的差,相对熵也被称为KL散度
相对熵的非负性:
D
(
p
∣
∣
q
)
≥
0
D(p||q) \ge 0
D(p∣∣q)≥0
证明:
−
l
o
g
(
x
)
为
严
格
凸
函
数
,
-log(x)为严格凸函数,
−log(x)为严格凸函数,根据Jesen不等式
D
(
p
∣
∣
q
)
=
∑
i
p
(
x
i
)
l
o
g
(
p
(
x
i
)
q
(
x
i
)
)
=
∑
i
p
(
x
i
)
∗
−
l
o
g
(
q
(
x
i
)
p
(
x
i
)
)
≥
−
l
o
g
(
∑
i
p
(
x
i
)
∗
q
(
x
i
)
p
(
x
i
)
)
=
0
D(p||q) \\=\sum_i p(x_i)log(\frac{p(x_i)}{q(x_i)}) \\ =\sum_i p(x_i)*-log(\frac{q(x_i)}{p(x_i)}) \\ \ge-log (\sum_ip(x_i)*\frac{q(x_i)}{p(x_i)})\\=0
D(p∣∣q)=∑ip(xi)log(q(xi)p(xi))=∑ip(xi)∗−log(p(xi)q(xi))≥−log(∑ip(xi)∗p(xi)q(xi))=0
也就是说
H
(
p
,
q
)
≥
H
(
p
)
H(p,q)\ge H(p)
H(p,q)≥H(p),真实分布
p
(
x
)
p(x)
p(x)用其自信息
p
(
x
)
p(x)
p(x)去表示信息量最少(还是自己更懂自己^ ^),用其它分布取编码都会引入噪声(额外的编码长度),所以相对熵可以理解成用分布
q
q
q去给真实分布
p
p
p编码所需要的额外的平均编码长度,越好的编码方式(越接近于真实分布)其相对熵越少。
通过相对熵引入了两个分布间进行编码引入的噪声大小的度量,完全一样的分布其值为0,分布差别越大其值越大。所以,相对熵可以用作两个分布相似性的度量!
值得注意的是,相对熵不具备对称性,即
D
(
p
∣
∣
q
)
!
=
D
(
q
∣
∣
p
)
D(p||q)!=D(q||p)
D(p∣∣q)!=D(q∣∣p)
回到 D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) D(p||q)=H(p,q)-H(p) D(p∣∣q)=H(p,q)−H(p),对于真实分布 p p p,若其为固定值,则相对熵的大小可以直接通过交叉熵进行体现,这也是在机器学习和深度学习中频繁使用交叉熵作为损失函数的原因。
3. 联合熵和条件熵
与概率论中类似,从信息熵的定义中可以衍生出联合熵和条件熵。
联合熵:
H
(
x
,
y
)
=
∑
−
p
(
x
,
y
)
l
o
g
(
p
(
x
,
y
)
)
H(x,y)=\sum -p(x,y) log(p(x,y))
H(x,y)=∑−p(x,y)log(p(x,y)),表示联合分布用自信息进行表达的信息量大小
条件熵:
H
(
y
∣
x
)
=
∑
i
p
(
x
i
)
H
(
y
∣
x
=
x
i
)
H(y|x)=\sum_ip(x_i)H(y|x=x_i)
H(y∣x)=∑ip(xi)H(y∣x=xi),表示
x
x
x分布下,
y
y
y的条件概率信息熵的期望值
条件熵可以表示成某个联合概率分布用条件概率进行表达的信息量的大小:
H
(
y
∣
x
)
=
∑
i
p
(
x
i
)
H
(
y
∣
x
=
x
i
)
=
∑
i
p
(
x
i
)
∑
j
−
p
(
y
∣
x
i
)
l
o
g
p
(
y
∣
x
i
)
=
∑
i
∑
j
−
p
(
x
i
)
p
(
y
j
∣
x
i
)
l
o
g
p
(
y
j
∣
x
i
)
=
∑
x
,
y
−
p
(
x
,
y
)
l
o
g
p
(
y
∣
x
)
H(y|x)\\=\sum_ip(x_i)H(y|x=x_i) \\=\sum_ip(x_i)\sum_j-p(y|x_i)logp(y_|x_i)\\=\sum_i\sum_j-p(x_i)p(y_j|x_i)logp(y_j|x_i)\\=\sum_{x,y}-p(x,y)logp(y|x)
H(y∣x)=∑ip(xi)H(y∣x=xi)=∑ip(xi)∑j−p(y∣xi)logp(y∣xi)=∑i∑j−p(xi)p(yj∣xi)logp(yj∣xi)=∑x,y−p(x,y)logp(y∣x)
条件熵的值恒非负
条件熵还可以写成
H
(
y
∣
x
)
=
H
(
x
,
y
)
−
H
(
x
)
H(y|x)=H(x,y)-H(x)
H(y∣x)=H(x,y)−H(x),也就是说条件熵表示在给定分布
x
x
x情况下,联合分布
(
x
,
y
)
(x,y)
(x,y)中额外的信息量
证明:
H
(
x
,
y
)
=
∑
x
,
y
−
p
(
x
,
y
)
l
o
g
(
p
(
x
,
y
)
)
=
∑
x
,
y
−
p
(
x
,
y
)
l
o
g
(
p
(
y
∣
x
)
∗
p
(
x
)
)
=
∑
x
,
y
−
p
(
x
,
y
)
l
o
g
(
p
(
y
∣
x
)
)
+
∑
x
,
y
−
p
(
x
,
y
)
l
o
g
(
p
(
x
)
)
=
H
(
y
∣
x
)
+
∑
x
∑
y
−
p
(
x
,
y
)
l
o
g
(
p
(
x
)
)
=
H
(
y
∣
x
)
+
∑
x
−
p
(
x
)
l
o
g
(
p
(
x
)
)
=
H
(
y
∣
x
)
+
H
(
x
)
H(x,y)\\=\sum_{x,y}-p(x,y)log(p(x,y))\\=\sum_{x,y}-p(x,y)log(p(y|x)*p(x))\\=\sum_{x,y}-p(x,y)log(p(y|x))+\sum_{x,y}-p(x,y)log(p(x))\\=H(y|x)+\sum_x\sum_y-p(x,y)log(p(x))\\=H(y|x)+\sum_x-p(x)log(p(x) )\\=H(y|x)+H(x)
H(x,y)=∑x,y−p(x,y)log(p(x,y))=∑x,y−p(x,y)log(p(y∣x)∗p(x))=∑x,y−p(x,y)log(p(y∣x))+∑x,y−p(x,y)log(p(x))=H(y∣x)+∑x∑y−p(x,y)log(p(x))=H(y∣x)+∑x−p(x)log(p(x))=H(y∣x)+H(x)
4. 互信息
定义互信息: I ( x , y ) = ∑ x ∑ y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(x,y)=\sum_x\sum_yp(x,y)log\frac{p(x,y)}{p(x)p(y)} I(x,y)=∑x∑yp(x,y)logp(x)p(y)p(x,y),表示分布 x x x 和 y y y共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。若 x x x和 y y y独立,则 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y),意味着 I ( x , y ) = 0 I(x,y)=0 I(x,y)=0
I ( x , y ) = ∑ x ∑ y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) = ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) − ∑ x , y p ( x , y ) l o g p ( y ) = ∑ x , y p ( x ) p ( y ∣ x ) l o g p ( y ∣ x ) − ∑ x , y p ( x , y ) l o g p ( y ) = ∑ x p ( x ) ∑ y p ( y ∣ x ) l o g p ( y ( x ) ) − ∑ y p ( y ) l o g p ( y ) = − ∑ x p ( x ) H ( y ∣ x ) + H ( y ) = H ( y ) − H ( y ∣ x ) I(x,y)\\=\sum_x\sum_yp(x,y)log\frac{p(x,y)}{p(x)p(y)}\\=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)}-\sum_{x,y}p(x,y)logp(y)\\=\sum_{x,y}p(x)p(y|x)logp(y|x)-\sum_{x,y}p(x,y)logp(y)\\=\sum_xp(x)\sum_yp(y|x)logp(y(x))-\sum_yp(y)logp(y)\\=-\sum_xp(x)H(y|x)+H(y)\\=H(y)-H(y|x) I(x,y)=∑x∑yp(x,y)logp(x)p(y)p(x,y)=∑x,yp(x,y)logp(x)p(x,y)−∑x,yp(x,y)logp(y)=∑x,yp(x)p(y∣x)logp(y∣x)−∑x,yp(x,y)logp(y)=∑xp(x)∑yp(y∣x)logp(y(x))−∑yp(y)logp(y)=−∑xp(x)H(y∣x)+H(y)=H(y)−H(y∣x)
互信息具有对称性,可以解释成信息熵与条件熵的差。
类似的证明方式,可以写出互信息的等价表达式:
I
(
x
,
y
)
=
H
(
x
)
−
H
(
x
∣
y
)
=
H
(
y
)
−
H
(
y
∣
x
)
=
H
(
x
,
y
)
−
H
(
x
∣
y
)
−
H
(
y
∣
x
)
=
H
(
x
)
+
H
(
y
)
−
H
(
x
,
y
)
I(x,y)\\=H(x)-H(x|y)\\=H(y)-H(y|x)\\=H(x,y)-H(x|y)-H(y|x)\\=H(x)+H(y)-H(x,y)
I(x,y)=H(x)−H(x∣y)=H(y)−H(y∣x)=H(x,y)−H(x∣y)−H(y∣x)=H(x)+H(y)−H(x,y)
用Veen图可以清晰的表达:
互信息也可以理解成两个分布中共同包含的信息量,因此在机器学习中常用来作为一种过滤法进行特征的选择。
5. 小结
机器学习中的各类熵均是随机变量分布中信息量的量度,差别在于随机分布的特点和用于信息量度量的方式。熵在数据的特征工程,决策树模型、逻辑回归和最大熵等概率模型,以及模型优化目标(交叉熵)中均有广泛的应用。
【参考文献】