信息量
香农认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量大小就是看这个信息消除不确定性的程度。
“太阳从东方升起了”这条信息没有减少不确定性。因为太阳肯定从东面升起。这是句废话,信息量为0。
“吐鲁番下中雨了”,这条信息比较有价值。
太阳明天从东方升起的概率是 100%,吐鲁番下中雨的概率是2%。事件发生的概率越大,说明事件发生的确定性越大。吐鲁番下雨这个事件,直接消除98%不下雨的事件,即消除不确定性的程度很大,所以信息量大。
从上面两个例子看出:信息量的大小和事件发生的概率成反比 定义: h ( x ) = − l o g ( p ( x ) ) h(x)=-log(p(x)) h(x)=−log(p(x)) 信息量 h ( x ) h(x) h(x)和事件发生的概率成反比且H(x)>=0
信息熵
1.定义: 信息熵是信息量的数学期望
H ( x ) = ∑ p ( x ) ∗ h ( x ) = − ∑ p ( x ) l o g ( p ( x ) ) H(x)=∑p(x)*h(x)=-∑p(x)log(p(x)) H(x)=∑p(x)∗h(x)=−∑p(x)log(p(x))
信息熵越大,系统的不确定性会越大,混乱程度也越大。当随机分布为均匀分布时,熵最大
联合熵和条件熵
联合熵
对服从联合分布为p(x,y)的一对离散随机变量(x,y),其联合熵H(x,y)可以表示为:
H ( X , Y ) = − ∑ x ∑ y p ( x , y ) l o g ( p ( x , y ) ) H(X,Y)=-\sum_{x}\sum_{y}p(x,y)log(p(x,y)) H(X,Y)=