信息与信息熵
如何测量信息
信息也是一种物理量
从感性上来说,信息量是描述变化程度的量,在物理上,我们可以容易的找到另一个物理量——功
信息熵与信息量的定义方式:以动能与功的关系为参考
现在考虑我们是如何计算某个阶段给物体带来的总体上的动能变化的——我们对于很复杂的过程,我们一般不直接进行测量/计算这个阶段的各种力在时间维度上的做功变化(因为功作为一个反映变化的物理量是较难直接测量的),而是利用动能定理及其特殊形式,考虑物体在阶段前后的能量状态(这样的状态是容易测量的,因为我们可以直接测量速度等物理量),前后能量状态作差,即可得到总体的变化量
信息与熵就类似功与动能的关系,众所周知,熵描述的是对于观察者来说,事物微观态不确定的程度
当一件事情(宏观态)有多种可能情况(微观态)时,这件事情对观察者来说具体是那种情况(微观态)的不确定性称为熵
当提供信息时,一般来说,事情的不确定性将会减少,对应的熵将减少,而信息量就是熵减少的量
举个例子,有一个大佬发了一篇顶会paper,考虑月份,你觉得应该是ICLR,EACL,AAMAS,CVPR,但你对你这个大佬同学和这四个会议一点了解都没有,所以大佬发四个会议的paper对你来说是等概率的。在这个状态下,大佬发了哪个会议的不确定性最大,也就是系统的熵最大。这时候有人告诉你,这个大佬有一天聚餐的时候扬言做CV的都是垃圾,那么他肯定发的不是CVPR,现在微观态的不确定性从4个等可能性选项变成了3个等可能性选项,系统的不确定性减少了,熵也就减少了,熵减少的量,就是该信息的信息量
信息量的定义方式:以质量的定义方式为参考
在对信息量有了直观理解后,我们就会自然地想到下一个问题:如何衡量信息量的多少呢?
我们不妨先考虑质量的定义方式
质量的定义是人为的、相对的,给定一个参照物体a,其质量定义为1kg,对于待测物体b来说,以等质量所需的a的"个数"来表示b的质量,即
1
∗
m
b
=
n
∗
m
a
n
=
m
b
/
m
a
∗
1
k
g
1*m_b=n*m_a\\ n=m_b/m_a*1\ kg
1∗mb=n∗man=mb/ma∗1 kg
对于信息量,我们同样是选定一个参照事件,其熵定义为1个信息量单位,对于待测事件来说,其不确定性相当于几个参照事件,我们就称这个待测事件有几个单位的熵量
习惯上,我们选择扔硬币作为参照事件,其两个等可能结果所表述的不确定性作为1个信息量单位,称为1bit,只不过我们不再采用乘法和乘法的逆运算,而是指数和指数的逆运算
I
b
1
=
I
a
n
n
=
l
o
g
I
a
I
b
=
l
o
g
2
I
b
I_b^1=I_a^n\\ n=log_{I_a}I_b=log_2I_b
Ib1=Iann=logIaIb=log2Ib
容易看出,假如事件b有8种等可能情况,那么其显然相当于3个扔硬币事件的叠加情况,类似的可以推广到2的非整数幂次的等可能情况
对于不等可能的情况,按下面的方式计算
n
=
∑
i
=
1
k
p
i
l
o
g
2
1
p
i
n=\sum_{i=1}^k p_i log_2\frac 1 p_i
n=i=1∑kpilog2p1i
对于该和式的第i项,可以理解为其描述的事件有
1
/
p
i
1/p_i
1/pi种等可能情况的事件,再将其以
p
i
p_i
pi的权重引入总的事件中
Example
对于刚刚的大佬发顶会问题,初始的熵为
I
1
=
l
o
g
2
4
=
2
b
i
t
s
I_1=log_2 4=2\ bits
I1=log24=2 bits
给定大佬不会发CVPR的信息后,其熵为
I
2
=
l
o
g
2
3
≈
1.585
b
i
t
s
I_2=log_2 3≈1.585\ bits
I2=log23≈1.585 bits
从而“大佬发的不是CVPR”这个信息的信息量为
Δ
I
=
I
1
−
I
2
=
0.415
b
i
t
s
\Delta I=I_1-I_2=0.415\ bits
ΔI=I1−I2=0.415 bits