信息量的理解
信息量是对信息的度量,是指某个事件发生时我们所接收到的信息量的多少。信息的大小跟随机事件的概率有关。越小概率的事件发生了产生的信息量越大,越大概率发生事件发生了产生的信息量越小。
“太阳从东边升起”,是一个必然事件,其概率为1,当它发生时,我们不能从其中提取出对我们有什么用的信息,所以它的信息量为0。
“太阳从西边升起”,是一件几乎不可能事件,其概率接近0,当它发生时,我们便会获得大量的信息,比如是不是地球自转方向改变了哇,或者是太阳开始绕着地球转了哇,可以说给我们带来的信息是无穷无尽的,可以说它的信息量为
+
∞
+\infty
+∞。
又比如“明天会下雨”,这是一个不确定的事件,它的概率为(0, 1),即非可能又非绝对,因此当它发生的时候,会给我们带来有限的信息,比如明天要带伞,天气可能要变凉了等等。
信息量的定义
由上面的例子可以知道,信息量与事件发生的概率成反比,其区间为[0,
+
∞
+\infty
+∞],所以我们定义信息量的公式如下
I
(
x
i
)
=
−
log
2
p
(
x
i
)
I(x_{i})=-\log_{2}{p(x_{i})}
I(xi)=−log2p(xi)其中
x
i
x_{i}
xi表示随机变量,
p
(
x
i
)
p(x_{i})
p(xi)表示
x
i
x_{i}
xi的概率。
例如某地二月份天气的概率分布统计如下:
{ X P ( X ) } = { x 1 ( 晴 ) , x 2 ( 阴 ) , x 3 ( 雨 ) , x 4 ( 雪 ) 1 / 2 , 1 / 4 , 1 / 8 , 1 / 8 } \begin{Bmatrix} X\\ P(X) \end{Bmatrix} =\begin{Bmatrix} x_{1}(晴), &x_{2}(阴), &x_{3}(雨), &x_{4}(雪)\\ 1/2, &1/4, &1/8, &1/8 \end{Bmatrix} {XP(X)}={x1(晴),1/2,x2(阴),1/4,x3(雨),1/8,x4(雪)1/8}这四种气候的信息量分别为 I ( x 1 ) = 1 b i t , I ( x 2 ) = 2 b i t , I ( x 3 ) = 3 b i t , I ( a 4 ) = 3 b i t I(x_{1})=1bit,I(x_{2})=2bit,I(x_{3})=3bit,I(a_{4})=3bit I(x1)=1bit,I(x2)=2bit,I(x3)=3bit,I(a4)=3bit
解释:随机变量 x x x表示天气, x 1 x_{1} x1表示晴天, p ( x 1 ) p(x_{1}) p(x1)表示为晴天的概率为 1 / 2 1/2 1/2,那么晴天的信息量就为 I ( x 1 ) = − log 2 ( 1 / 2 ) = 1 b i t I(x_{1})=-\log_{2}{(1/2)}=1bit I(x1)=−log2(1/2)=1bit (bit为信息量的单位),其他的依次类推。
信息熵
信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即
H
(
x
)
=
−
∑
i
n
p
(
x
i
)
l
o
g
2
p
(
x
i
)
H(x)=-\sum_{i}^{n}{p(x_{i})log_{2}{p(x_{i})}}
H(x)=−i∑np(xi)log2p(xi)信息熵是用来衡量事物不确定性的。信息熵越大,事物越具不确定性,事物越复杂。
例如,你抛一枚硬币,便只有正负两个结果,其信息熵 H ( x ) = − 0.5 log 2 0.5 + 0.5 log 2 0.5 = 1 H(x)=-0.5\log_2{0.5}+0.5\log_2{0.5}=1 H(x)=−0.5log20.5+0.5log20.5=1,而如果你抛一个骰子,其有6种结果,其信息熵为 H ( x ) = − ∑ 1 6 1 / 6 log 2 ( 1 / 6 ) = 2.5849 H(x)=-\sum_{1}^{6}{1/6\log_2{(1/6)}}=2.5849 H(x)=−∑161/6log2(1/6)=2.5849,因此抛骰子时的不确定性更大,也更复杂。