信息量与熵

目录

 

熵和信息的定义

信息量获取的三种手段(本质都是正确的调整每个可能情况的概率)

相关例子

信息的性质

相关例子

概率和熵的不同

无效信息情况

易出现的概念偷换

熵的由来

举例

信息熵普遍形式

至此,我做一个简单的比较


例子,下面所举例子的总前提:

一个选择题,他有四个选项,正确答案是C,但小明在做这道选择题时,完全不知道这道题该怎么做,他选择ABCD选项的概率分别为25%。

分析:小明是观察者,他不会这道选择题,对正确答案是ABCD是哪个选项的不确定性,这整个成为一个事物。而小明对这ABCD的不确定性就是熵。正确答案是宏观态,具体细节是微观态(即ABCD具体是哪种情况就是微观态。)例如生物是宏观态,动物和植物就是微观态。

熵在ABCD所有可能情况(宏观态)都是等概率1/4时最大;在确定了C是100%的答案时,熵最小。

熵和信息的定义

我们每时每刻都在获取信息,理解信息,那么到底什么是信息?

当一件事情(宏观态)有多种可能情况(微观态)时,这种事情(宏观态)对某人(观察者)而言具体是哪种情况(微观态)的不确定性叫做熵,而能够消除对该件事情的不确定性的事物叫做信息。

熵和信息数量相等,意义相反,获取信息意味着消除不确定性(熵)。

信息量获取的三种手段(本质都是正确的调整每个可能情况的概率)

1)调整概率

2)排除干扰

3)确定情况

相关例子

1)调整概率

当小红告诉小明,有一半可能性是C选项。

分析:此时C选项概率变为50%,其余选项变为16.6%,提高了C选项的概率,帮助小明获取到了信息,那么小红提供的信息量为0.21bits。

2)排除干扰

a、小红告诉小明,D选项是错的。

b、小红告诉小明,A选项是错的。

c、小红告诉小明,B选项是错的。

分析:当a发生时,小红帮助小明将D选项概率调整为0,ABC三个的概率变为33.3%,此时小红提供了0.415bits的信息量。

在a已经发生时,小明获取了0.415bits的信息,b随后发生时,小红帮助小明将A选项概率调整为0,BC2个的概率变为50%,此时小红又提供了0.585bits的信息量。

在ab已经发生的情况下,c随后发生时,小红帮助小明将B选项概率调整为0,C个的概率变为100%,小红又提供了1bits的信息量。

此时小明所有的不确定性消除。

3)确定情况

小红告诉小明C是正确答案。

分析:将C选项的概率变为100%,不确定性消除,小红提供了2bits的信息。

信息的性质

1)媒介无关:同一个观察者,对同一件事情接收到的信息与用于传递信息的信号形式无关。

2)相对个体:信息描述的是一个观察者确定一个宏观态是哪个微观态时需要的物理量,所以信息是相对的,接收到的信息是基于观察者已经对该件事情的实际了解程度而定的。因为观察者已经拥有这件事情的所有信息,不确定性从最初就不存在。

3)客观物理:虽然信息是相对于观察者而言的,但是信息不随观察者的主观以时改变。

4)相对事件:信息是相对于某件事件而言的,事件的变化,会影响熵的改变。

没有假信息这个说法,只有能够消除某人对某件事情的不确定性的事物才能是信息

噪音是信息获取的干扰,数据=信息+噪音。

相关例子

1)媒介无关

小红告诉小明正确答案是C,媒介是声音,小红在纸条上写上答案C传给小明,媒介是视觉。那么不同的媒介,但使得小明获取到的信息是相等的。

2)相对个体

小明对于4个选项不清楚是哪个,他的熵就是2bits,而小虎明确知道D不对,只在ABC中选,那么他对于该事件的熵就是1.58bits。小红知道这道题的答案是C,那么小红对这道题的熵就为0bit。

3)客观物理

如果小明主观认为C是错的,并没有实际帮助小明消除事情的不确定性。(例子有问题,还是表述有问题。。。)

4)相对事件

小明对于正确答案是属于AB,还是属于CD的熵为1bit。

概率和熵的不同

概率是某个事情某个可能情况的确定性;熵是某人对某件事物到底是哪个情况的不确定性。概率的输入是常量,熵的输入是变量。一般情况下,概率越大,所提供的不确定性就越少,概率越小,所提供的不确定性就越大,熵也越大。

无效信息情况

当小红告诉小明答案是ABCD中的一个时。

分析:小红没有消除小明对正确答案的不确定性,小红提供了0bit的信息。所有只有能够消除某人对某件事情的不确定性的事物才能是信息。

易出现的概念偷换

小红告诉小明C是正确答案,小红提供了2bits的信息。

如果想告诉别人“小红告诉小明C是正确答案”,这件事情的熵不是2bits了,因为观察者发生了变化,事件也发生了变化。


熵的由来

先来看一个问题:

小明不知道选择题ABCD哪个选项(正确答案)时,小红告诉小明D选项是错的,提供了0.415bits的信息,又告诉小明A选项是错的,提供了0.585bits的信息,又告诉小明B选项是错的,提供了1bit的信息。为什么3次都只告诉了一个选项是错的,但每次获取的信息量不同呢?

在量化这个信息量的时候,我们不妨先看看质量是如何定义的,千克的定义的如何产生的?

选定一个参照物,参照物的物体质量定位1KG,测量其他物体时,就看这个物体相当于多少个参照物的质量,这样就有了多少KG的概念。

既然质量是这么定义的,不妨类比质量的定义,我们来定义信息:

将“参照事件不确定性(信息)”认为是B,再看“待测事件不确定性(信息)”等于n个B,这里的n就表示“信息量”。

举例

单位质量使用B来表示,当m=n*B时,表示m个单位质量,如果定义单位质量为1千克,那么m就表示n千克。

这时再回到抛硬币的问题,抛3个硬币可能产生的结果为8种(正正正,正正反,正反正,反正正,正反反,反正反,反反正,反反反)。可以看出结果时指数关系,即m=2**n,n=log以2为底的m。这个n就时我们刚刚描述的信息量,所以抛掷3枚硬币出现的可能性是8,此时所产生的不确定性构成的信息量为3bit。

因此,小明对ABCD4个选项的不确定性为log以2为底4,结果为2,表明总共的信息量为2bit。

注意:这里有个前提,所有被测事件都是等概率事件。

信息熵普遍形式

可是当不知道答案的小明被告知“有一半可能性是C选项”时,各个情况的概率就不一样了。这时该如何计算熵?

答案:分别测量待测事件每种可能情况的信息量后,乘以他们各自的发生概率相加即可。也就是1/6log(mA)+1/6log(mB)+1/2log(mC)+1/6log(mD),这里的log是以2为底。

但从上面的式子不难看出,log(mA)等该怎么计算呢?

引入一个概念:

1%发生的情况,相当于100个等概率情况种确定1个实际情况,此时p=1/100,不难看出,用概率的倒数1/p=100来替换等概率情况的个数m后,我们就可以计算每种情况的信息量了。

答案:我们就可以发现,当上面这个概念被引入后,mA可以转化为A是6个等概率事件种确定一个事件的个数1/(1/6)=6,这时整个式子变为1/6log(6)+1/6log(6)+1/2log(2)+1/6log(6)=1.79bits。

至此,我做一个简单的比较

小明不知道选择题ABCD哪个选项时的为      2                   bits。

告诉小明C有一半概率正确所提供的信息为      2-1.79=0.21  bits。

小明知道C有一半概率后的不确定性(熵)为   1.79              bits。

这时,我们可以得到熵的计算公式为:

p(x)为信息的先验概率。信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。

(1)对称性:熵只和分布有关,不关心某一具体事件对应哪个概率;

(2)非负性:H(X)≥0

(3)确定性:若离散事件是确定事件,H(X)0;

(4)极值性——最大离散熵定理:|X|为信源消息的个数,则有H(X)小于等于log|X|,等号当且仅当信源X中各消息等概率时成立,即各消息等概率分布时( p=1/|X|),信源熵最大。

自信息量的公式为:

(1)h(x)应该是事件概率p(x)的单调递减函数;

(2)信息量应具有可加性:对于两个独立事件,其信息量应等于各自信息量之和;

(3)p(x)=1时,h(x)=0:表示确定事件发生得不到任何信息;

(4)p(x)=0时,h(x)=:表示不可能事件一旦发生,信息量将无穷大。

举例子

假设一条电线上串联了8个灯泡x1,x2,…,x8,这8个灯泡损坏的可能性是等概率的,假设有也只有一个灯泡损坏,用万用表去测量,获得足够的信息量,才能获知和确定哪个灯泡xi损坏。下面就来看我们最少需要获得多少信息量才能判断出。

 

从这一题的解答可以看出,虽然使用了自信息量,但是他是有前提的,那就是每次每个事物发生都是等概率的,所以才能直接使用,这时我个人还是推荐使用熵进行计算,那样会更明了,而且不容易出错。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值