一,基础
1,熵
如果X 是一个离散型随机变量,其概率分布为 p ( x ) = P ( X = x ) p(x) = P(X = x) p(x)=P(X=x), x ∈ R x\in R x∈R。X 的熵H(X) 为 H ( X ) = − ∑ x ∈ R p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x\in R}{p(x)log_2p(x)} H(X)=−x∈R∑p(x)log2p(x)其中,约定0log 0 = 0。
H ( X ) H(X) H(X) 也可以写为 H ( p ) H(p) H(p)。通常熵的单位为二进制位比特(bit)。
熵值度量的是随机变量不确定性的大小或者说是为确定随机变量所需的信息量,随机变量的熵越大,它的不确定性也就越大,为确定随机变量所需的信息量也就越大。
最大熵模型:在只掌握未知分布的部分知识的情况下,符合已知知识的概率分布可能有很多个,但使熵值最大的概率分布最大真实地反映了实际的分布情况。也就是说在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。
2,联合熵
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为: H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y) H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)联合熵实际上就是描述一对随机变量平均所需的信息量。
3,条件熵
给定随机变量X的情况下,随机变量Y的条件熵的定义如下:
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = ∑ x ∈ X p ( x ) [ − ∑ y ∈ Y p ( y ∣ x ) log p ( y ∣ x ) ] = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y ∣ x ) \begin{aligned} H(Y|X) &=\sum_{x\in X}p(x)H(Y|X=x) \\ &= \sum_{x\in X}p(x)[-\sum_{y\in Y}p(y|x)\log p(y|x)]\\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y|x) \end{aligned} H(Y∣X)=x∈X∑p(x)H(Y∣X=x)=x∈X∑p(x)[−y∈Y∑p(y∣x)logp(y∣x)]=−x∈X∑