1. 信息熵
信息熵是用于度量信息量大小的指标。
设 X X X 是一个随机变量,则 X X X 的信息熵定义为:
H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) (1) H(X) = - \sum_{x \in X} p(x) \log p(x) \tag{1} H(X)=−x∈X∑p(x)logp(x)(1)
有时也写作:
H ( X ) = − ∑ i = 1 n p ( x i ) log p ( x i ) H(X) = - \sum_{i=1}^{n} p(x_i) \log p(x_i) H(X)=−i=1∑np(xi)logp(xi)
2. 联合熵
两个随机变量 X X X 和 Y Y Y 的联合熵定义为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) (2) H(X, Y) = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y) \tag{2} H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)(2)
3. 条件熵
设
X
X
X、
Y
Y
Y 是随机变量,条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X) 表示在已知随机变量
X
X
X 的条件下随机变量
Y
Y
Y 的不确定性。
条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X) 定义为
X
X
X 给定条件下
Y
Y
Y 的条件概率分布的熵对
X
X
X 的数学期望:
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log p ( y ∣ x ) (3) \begin{aligned} H(Y|X) & = \sum_{x \in X} p(x) H(Y|X = x) \\ & = - \sum_{x \in X} p(x) \sum_{y \in Y} p(y|x) \log p(y|x) \end{aligned} \tag{3} H(Y∣X)=x∈X∑p(x)H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)(3)
还有一个推导公式:
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) = H(X, Y) - H(X) H(Y∣X)=H(X,Y)−H(X)
证明
H ( Y ∣ X ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x ) p ( y ∣ x ) log p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) [ log p ( x , y ) − log p ( x ) ] = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) − [ − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x ) ] = H ( X , Y ) − [ − ∑ x ∈ X p ( x ) log p ( x ) ] = H ( X , Y ) − H ( X ) . \begin{aligned} H(Y|X) & = - \sum_{x \in X} p(x) \sum_{y \in Y} p(y|x) \log p(y|x) \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x) p(y|x) \log p(y|x) \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x, y) [\log p(x, y) - \log p(x)] \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y) - [- \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x)] \\ & = H(X, Y) - [- \sum_{x \in X} p(x) \log p(x)] \\ & = H(X, Y) - H(X). \end{aligned} H(Y∣X)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)=−x∈X∑y∈Y∑p(x)p(y∣x)logp(y∣x)=−x∈X∑y∈Y∑p(x,y)logp(x)p(x,y)=−x∈X∑y∈Y∑p(x,y)[logp(x,y)−logp(x)]=−x∈X∑y∈Y∑p(x,y)logp(x,y)−[−x∈X∑y∈Y∑p(x,y)logp(x)]=H(X,Y)−[−x∈X∑p(x)logp(x)]=H(X,Y)−H(X).
得证。
4. 互信息
在已知了 Y Y Y 之后, X X X 的熵减少的量,称为 X X X 和 Y Y Y 之间的互信息,定义为:
I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ( p ( x , y ) p ( x ) p ( y ) ) (4) \begin{aligned} I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \Big ( \frac{p(x, y)}{p(x) p(y)} \Big ) \end{aligned} \tag{4} I(X;Y)=x∈X∑y∈Y∑p(x,y)log(p(x)p(y)p(x,y))(4)
实际上,还有一个推导公式:
I ( X ; Y ) = I ( Y ; X ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X; Y) = I(Y; X) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X, Y) I(X;Y)=I(Y;X)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)
证明
I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ( p ( x , y ) p ( x ) p ( y ) ) = − ∑ x ∈ X p ( x ) log p ( x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y ) + ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) = H ( X ) − ∑ y ∈ Y p ( y ) log p ( y ) − [ − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) ] = H ( X ) − H ( X , Y ) + H ( Y ) = H ( X ) + H ( Y ) − H ( X , Y ) . \begin{aligned} I(X; Y) & = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \Big ( \frac{p(x, y)}{p(x) p(y) } \Big ) \\ & = - \sum_{x \in X} p(x) \log p(x) - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(y) + \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y) \\ & = H(X) - \sum_{y \in Y} p(y) \log p(y) - [- \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y)] \\ & = H(X) - H(X, Y) + H(Y) \\ & = H(X) + H(Y) - H(X, Y). \end{aligned} I(X;Y)=x∈X∑y∈Y∑p(x,y)log(p(x)p(y)p(x,y))=−x∈X∑p(x)logp(x)−x∈X∑y∈Y∑p(x,y)logp(y)+x∈X∑y∈Y∑p(x,y)logp(x,y)=H(X)−y∈Y∑p(y)logp(y)−[−x∈X∑y∈Y∑p(x,y)logp(x,y)]=H(X)−H(X,Y)+H(Y)=H(X)+H(Y)−H(X,Y).
5. 条件互信息
假设 Z Z Z 是已知的,在知道 Z Z Z 的情况下, X X X 和 Y Y Y 的互信息称为条件互信息,定义为:
I ( X ; Y ∣ Z ) = ∑ z ∈ Z ∑ y ∈ Y ∑ x ∈ X p ( x , y , z ) log p ( z ) p ( x , y , z ) p ( x , z ) p ( y , z ) (5) I(X; Y|Z) = \sum_{z \in Z} \sum_{y \in Y} \sum_{x \in X} p(x, y, z) \log \frac{p(z) p(x, y, z)}{p(x, z) p(y, z) } \tag{5} I(X;Y∣Z)=z∈Z∑y∈Y∑x∈X∑p(x,y,z)logp(x,z)p(y,z)p(z)p(x,y,z)(5)
实际上,有推导公式:
I ( X ; Y ∣ Z ) = I ( X ; Y , Z ) − I ( X ; Z ) I(X; Y|Z) = I(X; Y, Z) - I(X; Z) I(X;Y∣Z)=I(X;Y,Z)−I(X;Z)
6. 参考文章
- 信息熵及其相关概念
- Lin Y, Hu Q, Liu J, et al. Multi-label feature selection based on max-dependency and min-redundancy[J]. Neurocomputing, 2015, 168: 92-103.
- 机器学习特征选择之卡方检验与互信息
- Conditional mutual information 条件互信息