信息熵
信息熵是度量离散随机变量的不确定性的指标。不确定性越大,信息熵的值越大。公式如下: H ( X ) = − ∑ i = 1 n p ( x i ) log 2 p ( x i ) H(X)=-\sum_{i=1}^n p(x_i) \log_2 p(x_i) H(X)=−i=1∑np(xi)log2p(xi)其中:𝑝(𝑥𝑖)代表随机事件𝑥𝑖的概率。
单看公式太抽象,下面逐步介绍信息熵的来源:
信息量
信息量:是对信息的度量。对于一个随机变量,如何衡量随机变量的具体值(也就是事件发生)带来的信息量呢?
信息量衡量事件发生带来的信息量,因此与事件发生的概率大小有关。一般越不可能发生的事件发生了带来的信息量越大,也就是说,概率越小的事件带来的信息量越大。比如一月飞雪带来的信息量很小,因为冬天下雪不是很正常嘛,不足为奇。而六月飞雪带来的信息量很大,毕竟夏天怎么会下雪呢。
因此一个事件的信息量是随着事件发生的概率递减的,且不能为负。那么如何用数学公式表示信息量和概率之间的关系呢?毕竟满足随着概率递减的函数如此多。
信息量公式
对于两个不相关的事件,同时发生带来的信息量应满足如下公式: h ( x + y ) = h ( x ) + h ( y ) h(x+y)=h(x)+h(y) h(x+y)=h(x)+h(y)由于两个事件不相关,则概率满足公式: p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y)根据上面两个式子,我们可以发现信息量一定和概率的对数有关,才能使信息量的加法转换为概率的乘法。因此信息量公式如下: h ( x ) = − log 2 p ( x ) h(x)=-\log_2p(x) h(x)=−log2p(x