信息与熵【上】生命以信息为食

最新推荐文章于 2021-03-20 00:35:42 发布

xosg

最新推荐文章于 2021-03-20 00:35:42 发布

阅读量1.1k

点赞数 2

分类专栏：数学之美信息论哲学

本文链接：https://blog.csdn.net/zipack/article/details/104666886

版权

哲学同时被 3 个专栏收录

115 篇文章 3 订阅

订阅专栏

数学之美

31 篇文章 8 订阅

订阅专栏

信息论

3 篇文章 1 订阅

订阅专栏

也不知道这样理解对不对，管他呢，只要能重塑大脑连接，减少记忆成本就行

记得母校有一年的研究生入学考试中，《概率论》最后一道送命题大概是这样的：

学渣小明在做一道选择题，由于小明完全不会做只能从ABCD中蒙一个答案，恰在此时小明看到同桌小红给这道题选择了C，鉴于小红也不是学霸，小明认为正确答案是C的可能性只有50%。

求小红带给小明的信息量？（11分）

小明最后当然会选C，毕竟有50%的把握，那作为“考生之外的考生”的研究生们该如何分析这道题呢？正确答案是0.21比特。对于当时还没有接触过信息论的我来说，看到0.21这个数简直一脸懵逼。其实0.21是一个近似值，准确的表达式是1.5-log2(6)*0.5，然后我就更懵逼了。

这道题其实非常简单，甚至不能作为考研最后一道大题。小红为小明带来的0.21bit减少了那道选择题的信息熵，小明的熵减少了，自然就敢选C了。至于1.5-log2(6)*0.5到底是怎么来的，先别着急，因为本文不仅要告诉你它的解题思路，还要用这道题带你走进信息论的大门，迎接新的世界观。

▶️ 信息熵 = 热力学熵 ◀️

首先要明确的一点就是，信息熵 = 热熵。这俩货是同一个东西，连公式都一模一样（一个用2进制，一个用e进制），就像数学中的卷积和物理中的卷积也是同一种积分，使用场景不同而已。

我为什么要告诉你这个道理呢？因为告诉你“信息熵等于热熵”这句话已经为你带来至少1bit的信息，在此之前你可能很纠结信息熵和热熵有啥区别，学完信息熵是不是还要再学一遍热熵？但这1bit的信息打消了你的纠结，给你带来了快乐，这就是信息的价值。

▶️ 信息 + 噪音 = 数据 ◀️

但是“信息熵等于热熵”这7个汉字本身需要占据21byte空间，但它实际带来的信息量只有1bit，也就是说剩下都是“噪音”，或者叫“废话”，而这句话本身并不是信息，只能称之为“数据”。所以，数据 = 信息 + 废话。

信息的单位为什么是bit呢，因为信息的本质是为了消除问题的不确定性，而bit（默认是2进制bit）正是消除不确定性的最小单位：1个bit确定了是0还是1，消除了50%的不确定性。相反，不确定性的单位自然也是bit了，随机变量的不确定性有一个更精炼的名字，叫做“熵”，比如一道判断题的信息熵是1bit，因为只需1bit就能表示“对”和“错”两种情况（样本）。给随机变量的复杂度定量是数学史上的一大步。

▶️ 信息与熵：数量相等，意义相反 ◀️

既然判断题的熵=1bit，之前小明做的选择题的熵就是2bit了：2个bit能表示4种等可能情况（log2(4)=2）。偷看小红之前每个选项的概率都是25%，偷看之后C是正确答案的概率上升到50%，A、B、D的概率下降到1/6。此时选择题的熵是减少了还是增多了？

肯定不会增多，小红带来的信息不管多少都一定减少了小明的熵。可以确定的是，熵减少的数量就是小红带来的信息量。

先等一等，到这里信息和熵的概念应该都清楚了：信息量是数据的属性，只有数据才拥有信息，数据到生活中就是一句话，一张图，一本书...而信息熵是随机变量的属性，只有随机变量才拥有熵，随机变量对应着生活中的那些不确定的事情，包括各种疑虑、困惑、问题...

而随机变量需要多少bit的信息才能消除自身的随机性，这个就是信息熵。因此我说，信息与熵的数量相等，意义相反，信息 = 负熵。

▶️ 生命以信息为食 ◀️

今早的体重和昨天早晨称量的结果一样，说明自己没有任何质量的增加，又进一步说明昨天摄入的三顿饭的总质量以各种途径排出了体外，同样质量的食物进入我们的身体又以同样的质量排了出来，究竟有什么意义？食物的何种属性发生了变化？

猫王薛定谔在《生命是什么》中明确提出，生命从外部摄取负熵来维持和发展，生命以负熵为食。而负熵就是信息，我们从食物中真正得到的是有机体里碳架的势能和排列组合的信息而不是物质本身。作为一个低熵体，食物被消耗的其实是它的信息量。

那么问题来了，对于C选项1/2概率，剩余3个1/6概率的选择题，它的信息熵到底是多少，换句话说它需要多少bit信息量才能将熵降为0？

此时出现了很诡异的情况，如果告诉他C是正确答案，小明收获了1bit信息，如果告诉小明A是正确答案，小明将收获log2(6)比特信息。为什么会这样呢？A的概率是1/6，如果答案是A则其他选项与变量本身无关了，相当于从6个等概率的选项中选择一个，则需要一个6进制的bit才能表示6种不同情况，1个6进制bit等于log2(6)≈2.6个2进制bit。同理，B和D如果是正确答案的话，小明所需的信息量也是2.6bit。

样本概率不等导致随机变量需要的信息量也不等，这是很常见的现象。对于同一个事情，比如明天是否地震，告诉你是或者否的效果完全不同，因为前者发生的可能性太小了，“明天会地震”的信息量太大了，你对告知者的感激程度也完全不同。注意这里的“感激”就是利益，信息量越大，利益就越大，信息 = 利益。

回到考研题，不同选项带来的信息量也不同，那道选择题的信息熵到底是多少？经过前面的分析，有一半可能得到1bit，另一半可能得到2.6bit，平均一下就是(1+log2(6))/2，约等于1.79bit，选择题此时的熵就是1.79bit。从最初的2bit到现在的1.79bit，小红为小明提供了0.21bit信息。于是最终答案是0.21。

我们还得到了最重要的定义：信息熵是随机变量所需要的平均信息量。根据之前的分析得到的公式如下：

其中i代表概率空间中所有可能的样本，表示该样本的出现几率，K是和单位选取相关的任意常数。S是所有样本信息量的数学期望。这个公式的数学性质还告诉我们信息熵的一些其他特性：

样本数量一定的情况下，当所有样本等几率出现，熵达到最大值（所有可能的事件等概率时不确定性最高）
对于样本等几率分布而言，样本数量越大，熵值越大（可能的事件越多，不确定性越高）

▶️ 热熵：微观态的编码长度 ◀️

热力学中的信息熵则代表在单位体积中，所有微粒可以排列组合的微观态的数量所需的bit数。

其中的kB是Boltzmann常数，主要是为了兼容基本物理量才乘上的，Ω就是微观态的数量，ln则是使用了e进制bit来给Ω种微观态编码。虽然信息熵的灵感来自于热熵，但后人普遍认为热熵是信息熵的一种应用，信息熵和热熵在统计意义上是一模一样的，我整理了一张表来对照它们的关系：

	信息熵	热力学熵
别名	香农熵	Boltzmann熵
空间	概率空间	拓扑空间
等可能情况	样本、事件	微观态
base	2进制	e进制
意义	随机变量的复杂度	微粒热运动的无序性
最小值	必然事件	绝对零度、奇点
公式	-K∑Pilog2Pi	S=kBln(Ω)

然而热熵的定义给了人们增加了一个奇怪的知识，就是Boltzmann的公式S=kBln(Ω)很好理解而且和信息熵的公式意义一样，但是Clausius定义的熵变等式却是ΔS=ΔQ/T，单位是J/K，熵的单位变成了焦耳每开氏度。Boltzmann公式和Clausius等式是否矛盾？熵和熵变又有什么区别？这些答案将在本文的后续篇《物质的终极形态：信息》中揭晓。

如果你真的理解了信息熵，再做一道检测一下：

还是一道选择题，还是等可能的四选一，还是一脸懵逼的小明正在做题，但这次他很有自知之明地选择了场外求助：第一个老师走来告诉他A是错的；过了一会第二个老师告诉他B也是错的，可惜小明还是不会做，直到第三次求助的时候老师告诉他D也是错的。。。

求按时间顺序，3个老师每次走来时分别提供的信息量？（答案是0.415、0.585、1）

（完）