设对于某个事件 x, 发生的概率是 p(x), 对应的"信息量"是 I(x).
性质
1. p(x) = 0 => I(x) = +\inf (正无穷大)
2. p(x) = 1 => I(x) = 0
3. p(x)>p(y) => I(x)<I(y)
含义是概率为 0 的事件对应的信息量大, 反之信息量少.
我们概率老师举的例子是: 皇家马德里与中国队踢, 那么皇马赢的概率...是人都知道...所以没有信息量(=0). 反之若是中国队赢了, 这个信息量就大了.
4. I(x)>=0 信息量总是正的.
5. p(x,y)=p(x)p(y) => I(x,y)=I(x)+I(y)
信息量的叠加性, 知道了两个独立事件的概率, 相当于知道了两方的信息(的和)
由以上性质就能决定出 I(x) = -c*ln(p(x)), 其中 c 是某个正常数, 代入就可验证.
最后的信息熵公式 - sum p[i] * ln(p[i]) 可以看作 ln(p) 的期望, 也就是整个系统的平均信息的多少.