摘自《统计自然语言处理》宗成庆
熵
-
熵是信息论的基本概念,贝尔实验室出版的《贝尔系统技术》连载的香农博士的文章《通信教学原理》奠定了信息论的基础。
-
如果X是一个离散型随机变量,取值空间为R,其概率分布为 p ( x ) = P ( X = x ) , x ∈ R p(x)=P(X=x), x\in R p(x)=P(X=x),x∈R,那么X的熵H(X)定义为 H ( X ) = − ∑ x ∈ R p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x\in R}p(x)log_2p(x) H(X)=−x∈R∑p(x)log2p(x)
-
熵又称为自信息(self-information),可以看作描述一个随机变量的不确定性的数量,随机变量的熵越大,它的不确定性越大。使熵值最大的概率分布最真实地反映了事件的分布情况。也就是说,在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。
联合熵和条件熵
-
如果X,Y是一对离散型随机变量 X , Y ∼ p ( x , y ) X,Y\sim p(x, y) X,Y∼p(x,y),X,Y的联合熵(joint entropy)H(X,Y)定义为 H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y) H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
-
联合熵实际上就是描述一对随机变量平均所需要的信息量。
给定随机变量X的情况下,随机变量Y的条件熵(conditional entropy)定义为
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = ∑ x ∈ X p ( x ) [ − ∑ y ∈ Y p ( y ∣ x ) l o g p ( y ∣ x ) ] = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( y ∣ x ) H(Y|X) = \sum_{x\in X}p(x)H(Y|X=x) =\sum_{x\in X}p(x)[-\sum_{y\in Y}p(y|x)logp(y|x)] =-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(y|x) H(Y∣X)=x∈X∑p(x)H