首先介绍几个信息论中的概念。
熵, 表示某个概率分布的不确定度:
H ( x ) = − ∑ p ( x ) l o g p ( x ) H(x) = - \sum p(x) log p(x) H(x)=−∑p(x)logp(x)
联合熵,两个变量联合分布的不确定度:
H ( x , y ) = ∑ ∑ p ( x , y ) l o g p ( x , y ) H(x,y) = \sum \sum p(x,y) log p(x,y) H(x,y)=∑∑p(x,y)logp(x,y)
条件熵,在X确定后,Y的不确定度:
H ( Y ∣ X ) = ∑ p ( x i ) H ( Y ∣ X = x i ) = ∑ ∑ p ( x , y ) l o g ( p ( x , y ) / p ( x ) ) H(Y|X) = \sum p(x_i) H(Y|X=x_i) = \sum \sum p(x,y) log (p(x,y)/p(x)) H(Y∣X)=∑p(xi)H(Y∣X=xi)=∑∑p(x,y)l