目录
概念
熵:观察者对事物的不确定性(一个事物发生了多少次变化,或有多少个事物发生了一次变化)
信息:消除不确定性的数据
数据=信息+噪音
噪音:不能消除不确定性的数据(相当于人们口中的废话)
概率 p:事物发生的可能性高低
信息量 m:可能的情况的个数
结合事例解释概念
如图,对于一位观察者来说有一道选择题,存在ABCD四个选项,
但是对于观察者来说,他并不会做这道题。
显然,观察者不知道要如何选择,
我们用熵,来表示观察者对事物的不确定性
熵在所有事情为等概率的情况下最大,这意味着观察者对这个问题毫无办法,只好默认这四个选项都有一样的可能性
概率的总和为1,一共有abcd,4个可能,所以信息量 m=4,概率 p=1/m=1/4=0.25
这时,一个学渣说道:abcd都很有可能是答案
很显然,这句话对于这个问题一点帮助也没有,就是一句废话,也叫噪音,是不能消除不确定性的数据
接着,又有一个学渣说道:a是错误的,这句话也是噪音
然后,学霸说道:d是错误的
学霸说道话叫做信息,它消除了不确定性
信息与熵,数量相等,意义(方向)相反,
消除熵=获取信息
如何用数值表示熵的大小(量化)
什么是1bit
抛一次硬币
正面50%
反面50%
我们规定事件A:一个硬币抛一次所带来的不确定性为1bit,如下图
第一个方程:2种可能的方向,变化了1次,出现了2个结果
第二个方程:变化的次数n=log2 m
以上一个事件造成的熵为1bit
————————————————————————————————————
如果有一个事件的不确定性(变化程度)为 事件A:一个硬币抛一次 的2倍,
则这个事件的不确定性为2bit
事件B:
——————————————————————————————————
等概率事件的变化曲线
求m=3的熵
n=log2 3=1.585
不确定性(变化程度)相当于抛一次硬币的1.585倍
非等概率事件求熵
A 0.5
B 0.25
C 0.125
D 0.125
下图为A的熵
同理
公式和推导
如何理解熵
如图,
当有四个选项,即m=4时,
A点为熵值最大点,这说明观察者对于这个问题毫无办法,只能认为四个选项有相同的可能性。
但,此时得到了一些信息,观察者判断了哪些选项更有可能是正确的。
从而来到了B点,熵=1.75,所以此信息提供了0.25bit
————————————————————————————————————————————
如上图,
A 0.5
B 0.25
C 0.125
D 0.125
概率=1
信息熵=1.75
概率随分支向下逐步分化
而熵却不是
如果所有事件为等概率事件,即ABCD概率都为0.25时,
所需变化节点数量=2个
信息熵=变化节点数量=2(也就是4个选项的上限)
如图区分不等概率事件,所需变化节点数量至少要3个
所以途中如果按等概率展开8个结果
信息熵=3
下图为本次事件的信息熵
为什么信息熵会从上限2,变化到1.75?
是因为我们得到了信息,省去了多余的分化步骤,
因为熵是越分化,越多的。