信息论中的熵

导论
热力学中的熵:是表示分子状态混乱程度的物理量。
信息论中的熵:用来描述信源的不确定性大小(信息论创始人香农借用了热力学中熵的概念)。
目前在机器学习、深度学习中经常看到与熵有关的概念。
经常使用的熵概念有下列几种:
信息熵(本节内容)
交叉熵
相对熵
条件熵
互信熵

熵和信息的区别

此刻的你接受着我所产生的文字、图片,但你知道我所传递的内容并不是这些媒介本身,而是信息。我们时时刻刻都在获取信息、讨论信息,然而到底什么是信息?

What’s information?
**香农认为信息是用来消除随机不确定性的东西。**当一随机变量(宏观态)有多种可能事件(微观态)时,该随机变量(宏观态)对某人(观察者)而言,具体是哪种事件(微观态)的不确定性叫做熵,而能够消除该人对该随机变量(宏观态)不确定性的事物叫做信息。熵和信息数量相等,意义相反,获取信息意味着消除不确定性(熵)
在这里插入图片描述
信息的不确定性如何度量?
信源信息的不确定函数 f 通常满足两个条件:
1)概率p的单调递减函数;
2)两个独立符号所产生的不确定性应等于各自不确定性之和,即
在这里插入图片描述
(可加性)

对数函数同时满足这两个条件,因此我们用对数函数来衡量这种不确定性,即
在这里插入图片描述

据此,我们给出信息熵的定义:要考虑信源所有可能发生情况的不确定性,若信源符号有n种取值:在这里插入图片描述
对应概率为:在这里插入图片描述
且各种出现彼此独立。此时信源的平均不确定性应为单个符号不确定性-log pi的统计平均值(E),称为信息熵。

例如,当小明不会某道数学选择题时(正确答案为C),正确答案(宏观态)为A、B、C、D(4个微观态)哪个选项的不确定性就是就是熵。
宏观态是不考虑内部细节的状态,而微观态是考虑具体细节的状态,比如生物是宏观态,动物、植物都是生物这个宏观态的微观态。
熵在A、B、C、D所有可能情况(宏观态)都是等概率事件(25%)时,最大;在确定了C(实际事件)是100%后最小。
在这里插入图片描述在这里插入图片描述

能消除不确定性的信息有三种类型,他们的本质都是正确调整了每个可能事件(微观态)的概率
在这里插入图片描述

比如,小红告诉小明,有一半的可能性选C
在这里插入图片描述

在这里插入图片描述

又比如,小红告诉小明D选项是错的
在这里插入图片描述
小红告诉小明正确答案是C,是将C选项的概率调整到了100%
在这里插入图片描述
小红告诉小明肯定是ABCD里的一项
在这里插入图片描述
小红告诉小明答案是D(正确答案是C)
在这里插入图片描述
那些不能消除某人对某件事情的不确定性的事情被称作噪音,噪音是信息获取的干扰

数据=噪音+信息 需要用知识将其分离

同意观察者,对同一件事情接收到的信息与传递信息的信号形式无关。比如小红将写有C的纸条传给小明,提供的信息是2 bits;小红直接告诉小明答案是C,提供的也是2 bits;小红摇晃小明的椅子3次,提供的信息也是2 bits。

概率和熵

概率是某随机变量(宏观态)某个可能事件(微观态)的确定性,而熵是某随机变量(宏观态)到底是哪个情况(微观态)的不确定性。最为重要的一点,信息描述的是一个观察者确定一个宏观态是哪个微观态时需要的物理量,所以信息是相对的。接收到的信息是相对于观察者对该随机变量的了解程度(已知)而言的。小红会这道题,不管告不告诉,小红这道题的正确答案是C,小红对这道题的熵都是0 bit,因为观察者已经拥有了对随机变量的所有信息,不确定性从一开始就不存在;小明不会这道题(由4个等概率情况里确定),熵为2 bits,熵最大;小虎知道D是错的,熵为1.58 bits,因为观察者拥有关于该随机变量的部分信息,熵略小。
虽然信息是相对于观察者而言的,但信息是客观存在的,不随观察者的主观意识而改变,比如小虎认为C是错的,熵不会减少(臆想不会减熵),因为“主观认为C是错的”,并没有实际帮助小虎消除随机变量的不确定性。
“太阳从东边升起”,对于知道的人而言提供了0 bit信息,对于指导或东或西升起的人而言提供了1 bit信息,对觉得东南西北都有可能的人而言,提供了2 bits信息。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信息论是用来衡量随机变量的不确定性的度量。可以理解为一个系统或信源包含的信息量的平均值。当系统或信源的事件或符号有更多的可能性时,其就越高,表明其信息量越大,我们对其未来的预测就越困难。 例如,一个硬币抛掷的结果只有两种可能性,正面或反面,因此其为1比特,即一个二进制数字所代表的信息量。而一个骰子抛掷的结果有六种可能性,其为2.58比特,表示我们需要更多的信息来描述其结果。一个文字的语言模型可能会更高,因为其的字母或单词有更多的可能性。 的计算公式为H(X)= -Σp(x)log2p(x) ,其p(x)表示随机变量X取值为x的概率。这个公式告诉我们,当一个事件或符号出现的概率越大时,其就越小。例如,一个硬币正反面出现的概率各为50%,因此其为1比特;而如果正面出现的概率为90%,反面出现的概率只有10%,那么其就会降低到0.47比特。 在信息编码和压缩也有着重要的应用。在信息编码,我们希望用最少的比特数来表示一个符号或事件,因此我们需要知道其的大小,从而选择最优的编码方式;在信息压缩,我们可以利用的特性来压缩数据,使得数据量更小,从而减少存储和传输的成本。 总之,信息论非常重要的概念,它可以帮助我们理解随机变量的不确定性以及信息的量化和压缩。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值