从信息论说起（杂谈）

最新推荐文章于 2021-07-13 12:04:11 发布

Mr_Wing5

最新推荐文章于 2021-07-13 12:04:11 发布

阅读量1.2k

点赞数 1

文章标签： x xin

什么是信息？在信息科技书的第一章，信息论的香农从通信的角度给信息的解释为：用来消除不确定性的东西。在课堂上，会这么给学生解释这句话的意思（例子来自施老师）：老师进入教室，你们可能会想，这个是老师吗？使我们的信息老师吗？今年几岁了？有没有结婚？有没有小孩？当老师做了自我介绍，你们脑子里的疑问也就一个个被消除了。书上的例子是关于旅游查询信息的例子。我上课的时候也只是强调信息和载体的区别，比如报纸、报纸上的文字、报纸上文字所传达的内容。

没有怎么深究过香农、信息论、通信方面的内容。直到KK老师推荐张汶老师的文章《以信息论的视角理解信息科技课程的核心概念》【1】，然后花了一点时间去研究香农的信息论。虽然是计算机出身，但是计算机专业从来都没有提到香农，也没有提到什么是信息。拜读了张老师的文章，知乎上的文章，没看懂啥意思。然后我询问了huan，问问有没有懂这方面知识的大神，没想到huan滔滔不绝地介绍起信息论的一些知识，我一知半解，有点概念了。突然意识到为啥计算机专业没有提到信息论，因为这个是通信的基础知识，终于明白当年计算机和通信为啥是一个辅导员了，从数理并到机电的时候，也是计算机和通信专业并过去了，原来是有那么点关系的。接着抽空去了上海图书馆，最坑爹的是，书名叫做信息论的书都在综合藏馆，我的借书卡在家里，所以纯讲信息论的书没法看，只能去中文图书馆。本着阿Q精神，读书千遍，其义自见的精神，把关于通信的书全部搬下来，只看关于信息、信息熵有关的内容，希望能看懂些什么。看着看着，发现天下文章一大“抄”，大部分内容都差不多，一些术语也渐渐不陌生了。回家把张老师的文章和网络上关于信息论的文章又重新看了一遍，终于明白了点什么，好像能够串起来了。

我们用克、千克、斤等单位来衡量重量，用厘米、分米、毫米等单位来衡量长度。什么是信息？大家都能理解，也经常使用，但是要给信息下个定义，确实很难。有没有衡量信息的单位？什么是信息量大？什么是信息量小？对于一些人来说，某某消息的信息量很大，同样的消息，对于某人来说，已经知道了，没啥信息量。

直到香农提出了一个数学公式，来定义信息，这个公式和概率有关，当概率大的时候，信息量小，当概率小的时候，信息量大。当时和Huan电话，他举了一个例子，也是人工智能课上危辉老师举的例子，当时危老师举这个例子的时候，我只觉得好玩，并没有意识到危老师在讲信息论的知识，囧。这个例子是这样的：狗咬人和人咬狗。狗咬人，发生的概率比较大，所以信息量比较小，但是人咬狗，不是狗肉，发生的概率比较小，大家会想这个人是不是得狂犬病了?为什么这个人会去咬狗？会有很多疑问，其中的信息量就比较大了。这个例子很形象的解释了香农关于信息的数学公式。

关于这个数学公式，有个很特别的名字，叫做信息熵，啥叫熵，就把我看晕了，好高大上的名字。然后查阅了一下资料，了解到，熵是来自物理概念中的热力学，百度百科上有个视频【2】是关于熵的，很形象：一杯清水，然后滴入墨水，最后清水和墨水混合在了一起。状态的变化：清水--》清水+墨水独立存在--》墨水开始慢慢延伸，把清水搅浑了，混乱的状态--》变成墨水色的水，稳定的状态。熵，和混乱程度有关。英文中熵是entropy，中文为什么翻译成熵，是胡刚复教授造的词，火取自热力学，商取自热温比中商的概念，然后组合成了这个中文词---熵，还是蛮有意思的。和信息论中的信息熵啥关系，从网上看到的说法，相传香农不知道要给这个公式取什么名字，叫信息量好呢?还是信息度好呢？后来选用了“熵”，因为很少人用，从概念上不容易混淆，而且熵本身有混乱的意思，和信息的不确定性也有类似性，所以选用了信息熵作为公式的名字。

说起这个公式，香农还是从哈特莱那里得到的启发（聪明的KK率先搜到的）。早在1928年，哈特莱就想到了，他首先提出信息定量化的初步设想，他将消息数的对数定义为信息量。若信源有m种消息，且每个消息是以相等可能产生的，则该信源的信息量可表示为I=log10 m。看着有点复杂，和KK一来一回的提问、思考后，我得出了这样的思考过程。首先解决M的问题：m种消息，我们可以理解为m种状态，如果有100种状态，我们用多少位十进制表示？2位十进制表示（00-99）；如果101中状态，我们用多少位十进制表示？3位十进制表示（000-100）；其次解决为啥以10为底：大概是当时十进制比较流行吧，可能1928年还没有实体的计算机，还没有二进制的概念吧（ENIAC计算机，1946）；最后解决为啥用log的问题：比如，2位十进制可以表示多少种状态？10*10(10^2);3位十进制可以表示多少种状态？10*10*10(10^3);从数学角度上，要求出公式100=10^x中x的值，只能用log了吧。

1948年，香农对其进行了更深入的研究，给出了信息的统计描述：

香农用信息熵来定量衡量信息的大小，而所有输入电脑的任何信息最终都要转化为二进制，所以在信息熵公式中，当对数底为2时，信息量的单位为比特，比特也就是我们现在经常用来衡量信息的最小单位。当对数底为10时，叫做哈特莱，估计也是纪念哈特莱的贡献吧。香农的公式和哈特莱的公式区别在于一个是和概率有关，一个是和状态、种类有关。当时去问郑SJ老师关于log的数学问题，她也表示很惊讶，因为在高中数学中，log属于一章，概率属于一章，没想到这两样东西可以放在一起，没想到这个公式还和信息、通信有关。对于计算机出身的我来说，为啥概率和不确定性有关，对于数学出身的郑老师来说，概率就是和不确定性相关的。哈哈，再次说明，突破都在跨界的领域。

香农的信息熵是和概率有关系的，也就是说概率越小，信息量越大，概率越大，信息量越小。如果按这个来理解，书上的例子就有点晕了，我当时的理解是，如果按照生活的角度是可以理解的，你看得资料越多，信息量就越大。但是按照香农概率的理解，你看得资料越多，知道的越多，确定的东西就越多，概率越大，信息量不是反而越小了么。越想越矛盾。经过一番和郑老师的探讨，大概理解如下，是个动态的过程：比如，我刚开始不确定要去哪里旅游，所以我网上搜资料，有搜美国、日本、英国、西班牙等地区的旅游信息，信息量就很大了（不确定、概率小、信息量大），当搜集到一定程度，我确定要去哪里旅游了，比如美国，目标锁定后，我只搜和美国相关的内容，信息量就缩小了（确定、概率高，信息量小）。以上理解纯属猜测，不一定对。毕竟香农是从通信的语境解释的，我们是从生活的语境中解释的，有偏差。

再回到香农的信息熵，从这个公式开始，信息有了度量单位---比特，就是我们现在经常用来衡量信息的最小单位。bit，在英文里是 binary unit的缩写，表示二进制位，在中文里叫做比特。

香农的信息熵的概念研究完了，来研究香农的三个编码定理。第一定理关于无失真信源编码，第三定理关于限失真信源编码，第二定理关于信道编码。什么鬼，连名字都看不懂。后来看到这张图，就明白了。

通信系统最核心的一幅图，信源--信道---信宿。通信要解决的是什么问题？传输信息、消息对吧，怎么能够更快更好准确的传输信息呢？在信源部分，消息尽量不失真，也就是失真率小，但是尽量少用符号（我脑子里跳出来电报，一个字一个钱）。信道部分，信道上有干扰，所以要有一定的抗干扰能力，传输速度要快。所以只能在信源编码和信道编码上下功夫了。信源编码部分，减少冗余，提高编码效率。然后引出了我们熟悉的有损压缩和无损压缩。信道编码部分，提高纠错能力，多一些冗余，比如在马路上运输玻璃杯，为了防止玻璃杯破掉，在玻璃杯之间加一些海绵什么的缓冲物。由信道编码，引伸出了现在的密码学。

在回过头去看那高大上的三个定理，简单理解为，信源编码和信道编码，信源编码分为无损（不失真）和有损（失真）。

至此，可以大致理解课本中的编排了，什么是信息---二进制---编码（文字图像声音）---压缩（有损、无损）。以前只知道按照课本的顺序教，着重在“技术、计算”上，不知道背后的原理和历史发展。

经过这段时间对信息论的初步研究，觉得古人好伟大，怎么能够想到这些公式、这些模型的，没有他们的付出，也没有现在的通信和计算机了。以前听老师说，计算机是建立在物理和数学基础上的一门学科，在研究信息论的时候，书上满满的数学公式，深深地感受到了这句话，也深深地觉得自己数学功底的薄弱，连log的计算都还给老师了，囧。从通信的角度出发，理解计算机中经常出现的编码、压缩、纠错码，还是很有意思的。

写不出高大上的期刊文章，写这篇杂谈，记录下自己这段时间的思考和研究过程，感谢KK、郑老师、huan的耐心指点。

作者：维尼鱼的海洋
链接：https://www.jianshu.com/p/a17b7aedbf2e
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

Mr_Wing5

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从信息论说起（杂谈）

什么是信息？在信息科技书的第一章，信息论的香农从通信的角度给信息的解释为：用来消除不确定性的东西。在课堂上，会这么给学生解释这句话的意思（例子来自施老师）：老师进入教室，你们可能会想，这个是老师吗？使我们的信息老师吗？今年几岁了？有没有结婚？有没有小孩？当老师做了自我介绍，你们脑子里的疑问也就一个个被消除了。书上的例子是关于旅游查询信息的例子。我上课的时候也只是强调信息和载体的区别，比如报纸、...
复制链接

扫一扫