信息论笔记（需要编辑格式）

最新推荐文章于 2023-04-24 22:02:17 发布

吴千行

最新推荐文章于 2023-04-24 22:02:17 发布

阅读量9.9k

点赞数 2

分类专栏：数据分析学习笔记文章标签：信息熵

本文链接：https://blog.csdn.net/weixin_43320465/article/details/112080885

版权

主要来源：吴军·信息论40讲

信息论介绍

世界上任何一个探索者都需要清楚三件事:我们现在的位置,我们的目标,以及通向目标的道路。
哲学是一门生活的艺术,它帮助我们认清自己,它回答了第一个问题。至于每一个人的目标,我相信大家比我更清楚。而第三件事其实是方法论。一般没有科学基础的方法论常常难以持久。
世界上的知识,可以分为道和术两个层面
这门课讲的是道的层面的知识,它不会讲述任何具体的方法,比如信息的采集、处理或者传输的理论细节。这样,我们就能够把重点放在讲述用信息论指导做事的方法上,以便让我们能够在不断变化,而且充满不确定性的世界里把握住机会,立于不败之地。
一个人的思维方式和做事方法常常决定了一个人能够走多远,而在历史的任何时期,都有最适合时代的方法论。如今,面对不确定性和非连续变化,信息论所提供的方法,能成为解决今天各种困惑的工具。即使不了解其中理论的细节,也应该知道它的原理。
简介信息论
信息论从本源出发，为信息的收集、处理、分析提供里理论基础，是数据时代的树种。信息本是自然天成，信息论的众多规律符合奥卡姆剃刀原理，具有很多的普适性和延展性，更多需要我们从信息论的原理出发,分析我们今天的做事方法。
大数据思维,就是这种方法论的一个应用。数据思维的分析部分是信息思维。大数据的价值来自其更准更及时的提供信息。通过数量、维度将现实存在的问题转变为计算问题，信息收集则转化为为数据收集问题。这也是互信息的的体现。

信息产生:在面对大量信息时,排除噪音,提取利用有效信息,科学做决策的能力; 信息传播:向外界传递信息时,平衡分配有限资源,增加沟通带宽,放大影响力的模块三信息应用:看懂信息应用的逻辑和通信发展的趋势,提前抓住新机遇的能力。

信息量是用比特衡量，取决于系统的不确定性而不取决于表面编码。而信息的价值不在于信息量的多少，价值取决于不确定性的重要程度，真正的决策时需要的信息不过是1-2比特。而系统的不确定性则用引用信息熵来衡量。
从中可以看出，信息是自然界的固有属性，根源来自不确定性。存在与否并不随人的主观意志而改变，但我们能够发现并利用。例如通过数字文字等编码掌握不确定性。
除此之外信息还具有等价性、相关性，这为信息的传播提供了基础。从系统论出发，信息的编码、压缩、传输、解码、储存等为构成了信息的传播，整体的最佳则各部分都必须作出让步。
根据信息的等价性，我们对信息编码，意味着在不同维度上展开了信息，这是多维分析的根源。编码的方式有很多，各有利弊。其中哈夫曼编码对信息的编码方式极契合自然，同时也是利用系统确定性对资源分配的绝佳案例。增量编码则是在等价性的基础上，利用了信息的相关性。
编码的信息需要解码才能够还原为信息，为了解码的便捷和准确，原始信息在编码时具有一定的冗余。无论是编码还是传输，错误是一定存在的，所以信息必需有一定的纠错、容错能力，这些都建立在冗余的基础上，比如纠错码。为了信息的安全我们也会通过特殊的编码方式将信息进行加密，。
信息的冗余不利于信息的高效传输，便需要压缩、解压。各种编码方式有对应的压缩和解压方法。利用傅立叶变化进行信息的编码、压缩源于信息的等价性，增量编码和压缩则跟据相关性。为了更近一步提高效率，根据失真度，可以舍弃一部分维度的信息，这便是有损压缩。
信息的解码，则是逆向的。对于常规的信息，利用等价性原理可以根据编码，压缩的方式逆向运行。同样利用信息等价性进行也可以进行解码比如：核磁共振，被称为互信息。也可以逆向运用利用相关性和多维分解，解码非常规的信息，也被称为信息的正交性。
除了信息的基本面，更多的是我们需要对得到的信息进行分析判断。对于信息的可靠程度由置信度来衡量，只有样本的样本才能确定其可靠性。现实中这点做到很难，参杂着人有意无意的误导，幸存者偏差是较为典型的案例。新增信息的价值，可以用信息增益衡量，核心仍是信息熵，这点能有效的指导我们寻求新的信息。但获得的信息有限，我们又必须作出选择，就需要计算错误信息的代价，最大熵原理是面对这种局面的一种方式，极大降低主观判断带来的影响。
有信息必有噪音，在信息的捕捉、储存、传输和处理方面我们都必须考虑噪音，这就必须了解噪音的特性，区别于冗余。信噪比决定了我们能否有效接受信息，为了有效提高信噪比需要根据噪音的维度和来源对噪音进行过滤。
信息的传输需要信道，信道的容量就是信息传播的成本和边界。只有理解了传输率，我们才能够理解互联网的发展，包括5G和Iot，同时有利于我们现实中的沟通。更少的能量传输更多的信息是必然。

1.信息量和不确定性有关

关键词：决策、公式、损失

1."不要重视钱而轻视信息"信息的重要性等同于钱。它能四两拨千斤。信息能驱动很大的能量。而信息作用的大小和信息量有关。
1比特信息是非常少的,是一个计算机字节的1/8,一个像素1/24。但是,这么一点信息产生的作用却是巨大的。为什么信息有这样四两拨千斤的作用呢?这其实背后也是有科学根据的,在控制理论中有一种开关电路,控制这个开关只需要一比特的信息或者极低的能量,但是经过它的电流（可以被认为是能量）却能近乎无限大,今天我们很多电器中那些弱电控制强电的元器件就是利用这个特点工作的。信息的价值在于能够控制巨大的能量。

2.信息量和不确定性有关,大家都知道的事,就没有什么信息量了。
如果存在两种情况,它们出现的可能性相同,都是50这时要消除其不确定性所需要的信息是1比特。但是如果一种情况发生的可能性大,另一种发生的可能性小,所需要的信息就不到1比特。比如说,一种情况出现的概率是1/3,另一种是2/3,这种情况下消除不确定性的信息量则降低到0.9比特。在更极端的情况下,比如一种情况有99??可能性发生,另一种是1那么这时的不确定性只有0.08比特了。信息的这个性质,和我们生活的经验是一致的,大家都知道二者皆50%可能性最让人头疼。而公众都知道的信息,其实是没有信息量的。（二选择一的场景下,假设第一选择发生的概率是p（p介于O~100?那么根据信息量（所需比特）公式定义为 log§＋log(1-p)=log[p*[(1-p],因为log函数是单调递增的,所以 p(1-p)取最大值的时候,信息量（比特）也最大,即 p=50%最大。那么当p往两边跑的时候,这个信息量就下降了。（大家可以想象一条抛物线,在中点 p=0.5的地方是最高点）

二战盟军登陆地点的信息量又有多大呢?虽然德军最后可能确实相信了盟军的假情报,在加莱重点设防（前线的两位元帅相信了,但是希特勒并没有相信）,但是,整个诺曼底战役创下了英美军队在一场战役中阵亡的最高记录。为什么盟军骗过了德军,却还是损失惨重?因为德军采用了信息论中一种非常好的对策,也就是不把鸡蛋放在一个篮子中,他们在诺曼底也严密设防了。因此,德军在得到信息前和得到信息后,策略差不多,这1比特的信息作用就不大了。你可以通过这两个例子看出来,改变世界的情报,信息量可能1比特都不到,而且这1比特的信息很可能还会遇到更高明的应对策略,失去价值。不仅如此,很多时候,可能这1比特信息还会害了你。

3.对一个未知系统（黑盒子）所作出的估计和真实情况的偏离,就是信息的损失,偏离越多损失越大。此外,我们还提到了信息论的一个原则,不要把鸡蛋放在一个篮子中,这样可以避免因为信息缺失,而导致灾难性结果。

1比特的信息很可能还会遇到更高明的应对策略,失去价值。不仅如此,很多时候,可能这1比特信息还会害了你。在最后一个例子中,情况就是如此。赵括以为对方的主帅是王龁,但是结果正相反,真正的主帅是白起。这种情况最为悲催。怎么从信息论的角度分析这种危害最大的情况,我们在后面介绍交叉嫡时会专门讲。

（大家可以想象一条抛物线,在中点p|=0.5的地方是最高点)|对*“我们知道1比特信息是非常少的,|是一个计算机字节的1/8,一个像素的1/2|**的解释-计算机是二进制的,一个字节（1byte,1B）由八位0或1组成的数串组成,例如01011010,其中的每一位叫做比特（1bit,1B=8bit).-而一个像素对应的比特信息,需要看是什么模式了,有以下几种常见模式:-如果是灰度模式(黑白照片)1像素就是1byte;-如果是RGB模式,1像素则要用(R,G,B)三个byte表示;-如果是CMYK模式,1像素则要用（C,M,Y,K)四个byte表示;吴军老师在文中提到的1比特是一个像素的1/24,是指RGB模式下的场景。###吴军信息论##金勇笔记##延伸阅读##关于Peter_Norvig-他是全世界人工智能领域的殿堂级人物,人工智能教科书的作者,Google研究院的"火车头组"之一。-我无意之中曾经看过他2016年Berkely毕业生典礼上的演讲[YouCanAlwaysGetWhatYouWant—ButNotW|hatYouNeed],对我产生了很大的启示。为了方便我已经上传到B站,有兴趣的同学在Bilibil视频网站,搜索Norvig就能看到了。###吴军信息论##金勇笔记##个人收获#:-大家好,我是金勇。既是得到的普通|员工,又是吴军老师的粉丝。作为工程师,我会在未来的一个月常驻知识城邦,和大家一起学习吴军老师在得到App的第四门大课:《信息论》(继）。|谈谈我的过往故事。在2016年,我曾经在两个小型互联网公司的Offer中犹豫不决,它们除了商业模式上,在很多地方都很相似:年轻、朝气、重视数据但缺少|人才,面临着二选一的左右选择。因为缺少足够的信息和判断依据,我最后相信了直觉,选择了A公司,但是入职不久之后发现这家公司并不是想原来自己想象的||那样,我断言它的商业模式不可持续且没有新的变革基因。于是在半年之后,我离开了A再次去B求职,并在B公司完成|了自己的社会新人的转型。三年之后的今天,当初的A公司已经黯然消沉了,而B|公司则已经成为了互联网垂直领域的TOP|3。这就是本讲结尾处,“信息的损失,偏离越多损失越大”。如何避免这种情况（或者说降低这种损失）?得到大学的"多元思维模型”、2018年罗老师《知识就是力量》、罗辑思维专栏

2.信息的固有属性

关键词：本身存在、置信度、从0到1

信息是宇宙本身固有的属性。宇宙是如何产生的是：3K背景辐射；地球生命的共性和起点：沃森和克里克DNA结构；以及人类文明的起点：G蛋白偶联受体。信息并不被我们主观控制,但是我们可以发现它们。

置信度：有些推断可信度高一些,有些低一些,世界上没有绝对的可靠,只有可靠性的高和低,信号和噪音比率的高和低。从信息论上说,信息的可靠性就叫做置信度。
信息量高低取决于是否大家都知道：对于一件过去大家不知道的事情,现在知道了,信息量就大,对于一件大家基本上了解的事情,即使你的文章写得再长,信息量都有限。提出问题比解决问题更重要,因为提出问题的人,开创了一个重要的却是完全未知的领域,回答问题并且给出最初解答的人,由于通常只是在某种认识阶段上对未知的领域提供一些有限的信息,因此贡献有限,被认可的程度不高。在一个领域的贡献大小,不在于你提供了多少材料,而在于提供了多少信息量。

信息传递的效率：奥卡姆剃刀原则？

3.信息改变思维模式

关键词：计算模型、长尾、动态、创新

数据的四类应用。

第一类是解决人工智能问题。利用数据（信息）消除不确定性,这把需要人脑推理的问题,变成基于大数据的计算问题。

语音识别技术：贾里尼克用通信中的编解码模型代替计算机学会构词法。通过通信编解码理论以及有噪音的信道传输模型,构建了语音识别的模型。模型里面有很多参数需要计算出来,这就要用到大量的数据,于是,贾里尼克就把上述问题又变成了数据处理的问题了收集数据,训练各种统计模型。贾里尼克思想的本质,是利用数据（信息）消除不确定性,这就是香农信息论的本质,也是大数据思维的科学基础。

第二类是利用大数据,进行精准的服务。公司从重研究方法转变到重数据收集的。

精准服务：理解用户的意图,进行个性化服务，需要非常非常多的数据。如果对每一个人进行统计,数据量就不够了,因为一个人搜索的数量再多,也无法和所有人相比。一旦数据量不够,统计就变得毫无意义。因此,这一方面需要尽可能多地收集数据,另一方面则需要对行为习惯和偏好类似的人进行聚类找到趋势。微软的搜索效果没有Google的好,不是技术不行,而是数据量不够。对于那些常见的搜索,大家其实水平差不多,微软差就差在了那些很少见到的长尾搜索关键词上。

第三类是动态调整我们做事情的策略。足够多的数据可以帮助我们动态匹配最佳结果。

机械论的思维方式,是通过找到通用的规律试图一劳永逸地解决问题。通过几十年的工业革命，今天容易一劳永逸解决的那些问题大多数已经被解决了,留给我们的是不确定性的问题,因此我们做事情的策略也就要变化。优步和滴滴都是不允强调司机和乘客之间的固定性,比如A乘客坐B司机的车子比较满意,他下次依然希望提前预订B司机的服务。因为对于一个不断变化的打车人群分布和车辆分布,利用数据做动态调整是效率最高的策略。如果有了足够多的数据,在理论上有保障,只要调整的次数足够多,就能收到最佳匹配。如果你没有足够多的数据,一共只有200辆车,5000个人的数据,你是做不到这一点的。

第四类是发现原来不知道的规律。互信息的理论。

处方药和各种疾病重新匹配今天研制一款新药需要20年时间,20亿美元的投入,这是惊人的投入。能否减少这方面的研发成本,缩短研发周期呢?过去一种治疗心脏病的药治疗胃病效果很好,于是他们直接进入小白鼠试验,然后进入了临床试验。由于这种药的毒性已经试验过了,因此临床试验的周期短了很多。这样,找到一种新的治疗方法平均只需要3年时间,投资1亿美元。

如果说存在问题,那一定是数据问题;如果说不存在问题,那只是没有人提出有问题的数据。

4.信息的度量

关键词：比特/不确定性

信息是可以量化度量的,单位就是比特。很多复杂交易和产品都是利用了信息的可度量性,把信息问题变成了概率问题。

信息的量化度量：单位是"比特"。信息量的大小不在于长短,而在于开创多少新知。度量信息，香农放弃了从信息的内容出发,将不确定作为"砝码",也就是将信息的量化度量和不确定性联系起来。给出一个度量信息量的基本单位,就是"比特’’。比特"定义:如果一个黑盒子中有A和B两种可能性,它们出现的概率相同,那么要搞清楚到底是A还是B,所需要的信息量就是一比特。如果我们对这个黑盒子有一点知识,知道A的概率比B大,那么解密它们所需要的信息就不到一比特。信息说到底是用于消除不确定性的。如果讲的事情大部分大家都知道,信息量就很少。这也是为什么那些心灵鸡汤的文章大家不愿意读,并非是它们说的不对,而是没有信息量。

不确定性的度量：信息熵

你可以把一个充满可能性的系统视为一个"信息源",它里面的不确定性叫做"信息嫡",而"信息"就是用来消除这些不确定性的,所以搞清楚黑盒子里是怎么一回事,需要的"信息量"就等于黑盒子里的"信息嫡"。嫡其实是一个热力学的概念,表示一个系统的无序状态,或者说随机性。一个系统中不确定性取决于：状态数量和各个状态的可能性。一个系统中的状态数量,也就是可能性,越多,不确定性就越大;在状态数量保持不变时,如果各个状态的可能性相同,不确定性就很大;相,如果个别状态容易发生,大部分状态都不可能发生,不确定性就小。信息嫡的公式:。永远不要听那些正确率总是50%的专家的建议,因为那相当于什么都没说,没有提供能够减少"信息嫡"的"信息量"。

在这里插入图片描述

开赌局的,只要收费比信息实际的价值高,都是稳赚不赔的。就是开赌局的从来不是拿自家的钱和你对赌,而是让你们彼此互相赌,他通过变相多收费盈利。

很多复杂交易背后其实都用到了信息的可度量性。

赌球：假如,我们能提前确定各个球队获得世界杯冠军的概率,设定它们分别是P1,P2,……,P32。那么我们套用上面的公式,就可以算出这件事需要多少信息,或者说这个问题的信息熵。我们假定为3.4比特,或者说对应于3.4块钱。如果有一个人提一次问题支付一块钱,从理论上讲,所有参加赌局的人只要平均支付3.4块钱就能得到谁是冠军这个信息。但是如果设定赌局的人将收费标准略微提高,提高到一个人平均4元。这里面的盈余就被设赌局的人拿走了。我们不可能提前知道概率,那每个球队得冠军的概率是如何预估的?其实这是我们这些下注的人告诉设赌局的人的。如果大家都往德国队身上下注,结果预测德国获冠军的概率就很高,所以押注的多少其实就是大家给出的概率。

结构化的投资证券(Structured Notes)：比如说石油的价格上涨到100美元以上,每1美元高盛就付给你1.5美元。但是,如果没有到100美元,你需要每个月付给高盛1美元。并不是高盛在和石油公司,或者其他人对赌么。因为高盛转手就将和它完全相反的投资产品,卖给了希望油价波动的人。当然,高盛会包装得很好,让两边都感谢它,其实它才是真正挣钱的一方。

金融数学这个专业,那里面的人天天做的事情就是设计这种不容易为人所看懂的,自己永远不赔钱的金融产品。而所谓的基金经理,很多就是把这样的产品卖给你的人。

5.编码的长度

关键词：香农第一定律/不缺定性

香农第一定律：码长度≥ 信息嫡（信息量）/每一个码的信息量。香农第一定律告诉我们：
1.可以找到最短编码，只要编码设计得足够巧妙。数字和文字语言是人类用来消除信息不确定性的编码。
2.信息量与码长无关。信息量只取决于信息熵即不确定性，各种编码系统,其实都是在编码复杂性和编码长度之间作平衡,它们在信息量上是等价的。采用很多个符号,编码长度就短,但是系统就复杂；采用很少的符号编码,比如采用二进制,编码的长度就长

案例：有100个数,挑出一个,不确定性是100选1, 信息嫡为log100=6.65(注:log以2为底的100的对数,课程中的log函数如果没有特殊说明都是以2为底的。有6.65比特的信息,可以确定100个数中的一个。
第一种如用100种奇形怪状的符号对应这100个数字,这种编码所能表示的信息量,其实就是100选一的问题,也就log100=6.65比特。由于一个编码正好表示一个数,因此编码的长度为1。
第二种编码方法是采用十进制编码,也就是用10种符号,每个符号所代表的信息量只有log10=3.325比特,但是10个符号想表示100个数字,就需要两两组合。这样两个符号的信息量加起来还是6.65比特，是编码的长度是前一种的两倍。用二进制编码,就是只有0和1这两个符号,它们所包含的信息只有log2=1比特,如果我们想用它们来表达100个数,则需要6.65个码。进位取整以后,也就是7位的码长,才能表示100个数字。

3.各种编码系统是等价的,所以,在其他编码系统中解决不了的问题,换一个系统同样解决不了。这就是问题，比答案更有价值的原因。人不可能解决一个，自己都没有意识到的问题，即使碰巧解决也没有意义。

语言的形成过程：逐步意识各种不确定性是本源，各种编码是掌握不确定性的过程。
早期无论是苏美尔人、古埃及人、古中国人,还是印度河文明的古印度人,都采用的是象形文字是对实物及其类别的确定。一个图画就是一个意思。
但是后来要表达的意思实在太多了,总不能无限制地发明文字,于是就出现了用几个文字表达一个复杂的含义。
假如一个原始人家里有10样东西,他给每个东西起一个名字,这就是最简单的编码,而且早期起的那些名字都容易让人联想起东西的特性,就如同把狗叫成汪星人,把猫叫成咕星人一样。当然,家里的东西多了,要做的图像多了,就做不到把每一件事单独编码,就需要利用一些编码进行组合了。
人类使用动词,标志着文明的一大进步,这意味着他们能够把动作进行分类,编码了,而且这样才能表达复杂的意思,才有可能形成知识。比如说一个原始人让孩子把家里的石斧拿来,他就可以告诉他采用"拿来"这个动作,而要拿的对象是"石斧"。

有了象形文字和动词之后,人类就有了书写系统,各种信息就通过文字这种编码记录下来,这才让我们了解到过去的历史。但是,从此人类的不平等也开始加剧,因为能够认识编码的人,就掌握了其他人所没有的信息。

6.信息的编码

关键词：易辨识/信息量/信息组合

1.编码第一个特点就是：易辨识，要便于区分不同的信息。

例如：0～9就是一个很好的编码系统,对于描述数字信息来讲,它们的数量不多不少,形状差异大。如果采用一个小圆点".“代表一,两个”.“代表二,三个”…“代表三,十个”……"代表十,就不太好,因为大家容易看花眼。
此原则主要针对人的需求，高效的理解信息。在平时的表达和沟通中也很重要，德国著名的营销专家和演说家多米尼克·穆特勒提出的清晰表达的五个原则:明确、诚实、勇气、责任和同理心,前四条就和信息编码要便于识别有关。文字本身就是符号，许多专业文件都写得像八股文,无论是病例,律师写的法律文件,或者科学杂志上的论文,其最根本的目的就是要在同行中确保意思表达无误,不会产生任何误解。

2.编码要做到"有效"。高效编码能容纳更多的信息。

用十根手指头,能表达多少个数字?个巴掌就能表示十个数字,将巴掌组合起来,一个表示个位,一个表示十位,就能表示从0到99共100个数字。如果我们考虑采用二进制,每个手指对应于一位二进制,十个指头能表示10位2进制，则能表示1024个不同的数字。但如果让每个手指具有伸开、半伸开和收缩三个状态,表示59049个数，就过分强调有效性,而忽视了易辨识这个原则。

案例：
如何组合信息,保证它高效传递,还能不违背第一条"易辨识"的原则。

1.例如;
硅谷的公司里有这样一道面试题:有64瓶药,其中63瓶是无毒的,一瓶是有毒的。如果做实验的小白鼠喝了有毒的药,3天后会死掉,当然喝了其它的药,包括同时喝几种就没事。现在只剩下3天时间,请问最少需要多少只小白鼠才能试出那瓶药有毒?这是一个64选1的题目,那么需要的信息量就是log64,也就是6比特，只要6只老鼠。

1.我们将这些药从O～63按照二进制编号要点是:除二取余,倒序排列。
2.然后选六只老鼠从左到右排开,和二进制的六位,从左到右地依次对应
3.从左边数第一个老鼠吃对应的二进制是1的药,0就不吃。
4.吃完药之后三天,某些老鼠可能死了,我们假定第1,2,6这三只老鼠死了,剩下的活着。说明编号110001号药有问题,而110001对应十进制的49,也就是说第49瓶药是毒药。

2.产品测试：
有效编码的思想在今天IT的产品性能比对测试中有直接的用途。其中很重要的一条就是采用大量用户反馈信息决定产品的设计和技术方案。

比如在一个产品中,有两种可用的方案,A和B,哪种更好呢?过去常常是工程师们和产品经理们拍脑袋想,有些时候某些人的"眼光"很好,正好蒙对了,选了一个用户也喜欢的方案,但是这种"眼光好"是无法复制的,一个公司将自己的商业成功寄托在"眼光好"上早晚要失败。利用用户大数据评判A、B方案的好坏,通常的做法是随机选取1%用户作对比实验。比如Google在改进搜索算法或者其它产品体验后,会先做这样不公开的测试,一般会持续一周左右。但是像Google这样有好几万工程师的大公,每天的各种改进是很多的,如果每个项目都用掉1%用户,把全部用户用上也不够。通过高效编码问题,利用少量用户同时进行很多个实验的方法,就类似上面这种让小白鼠试毒药的方法,也就是将各种不会发生冲突的实验用二进制进行编码,几组实验者,就可以同时进行几十个不同的实验。

7.最短的编码

关键词：概率分析/哈夫曼决策

哈夫曼编码：越常出现的信息采用较短的编码,不常出现的信息采用较长的编码。比采用同样码长的信息总体上更合算。这种最短编码方法等于香农第一定律的继续,由哈夫曼发明的,要点:
1.通过香农第一定律,可以从数学上可以证明哈夫曼的这种编码方法是最优化的。（相当于信息熵不变的情况下，提高每个码的信息量）
2.本质上是将最宝贵的资源（最短的编码）给出现概率最大的信息。分配原则：一条信息编码的长度和出现概率的对数成正比。

案例：
1.基础推导步骤:
我们不妨看一个具体的例子。我们假定有32条信息,每条信息出现的概率分别为1/2、1/4、1/8、1/16……依次递减,最后31、32两个信息出现的概率是1/2_31、1/231（这样32个信息的出现概率加起来就是1了）。现在需要用二进制数对它们进行编码。等长度和不等长度
两种编码方法,我们来对比一下:
方法一:采用等长度编码,码长为5。因为是log32=5比特。
方法二:不等长度编码,如果出现概率高就短一些,概率低就长一些。我们把第一条信息用0编码,第二条用10编码,第三条用110编码··最后31、32两条出现概率相同,都很低,码长都是31。第31条信息就用1111……110(30、个1加l个O)编码,第32条信息,就用1111……111（31个1）来编码。第一条消息出现的概率为1/2,我们知道1/2（以二为底)的对数等于-1,因此它的编码长度就是1（即码0)。最后两条消息出现的概率为1/2 -31次方,取对数后等于-31,因此它们的编码长度就是31。
这样的编码虽然大部分码的长度都超过了5,但是乘以出现概率后,平均码长只有2,也就是说节省了60%码长。如果利用这个原理进行数据压缩,可以在不损失任何信息的情况下压缩掉60%

2.压缩:比单独一条信息,其概率分布差异更大,因此对它们使用哈夫曼编码进行信息压缩,压缩比会更高。比如说,在汉语中,如果对汉字的频率进行统计,然后压缩,一篇文章通常能压缩掉50%上,但是如果按照词进行频率统计,再用哈夫曼编码压缩,可以压缩掉70%上。

3.莫尔斯电码：他根据常识对经常出现的字母采用较短的编码,对不常见的字母用较长的编码,这样就可以降低编码的整体长度。如果对英语26个字母采用等长度的编码,比如进行二进制编码,需要log26，就是约5比特信息。而采用莫尔斯的编码方法,平均只需要3比特,这个效率就高了很多,这样发报,时间就能节省大约1/3左右。如果所有的信息出现的概率相同,采用哈夫曼编码,每一条信息的码长都一样,这时哈夫曼编码就变成了等长编码,没有优势了。

抽象拓展：

3.在现实生活中,使用哈夫曼编码进行决策。

投资：不断尝试，坚决止损。一方面不排斥尝试新东西,这样不会失去机会,。另一方面对于花了一些精力,看样子做不成的事情,我是坚决做减法止损,以把最多的资源投入到成功率最高的事情上。

凯鹏华盈。虽然换了三代掌门人,但它能在四十多年,20多期基金中,平均每一期基金的回报总是有40倍左右,这说明它不是靠一两个人天才的眼光,而是有一整套系统的方法,保证投资的成功率。?其实就是哈夫曼编码的原理,即通过每一次双倍砸钱（double down),把最多的钱投入到最容易成功的项目上。

假定一期基金有1亿美元可以用来进行风险投资,怎样投资效果最好?还假设如果投资的公司最后能上市,将获得50倍的回报;如果上不了市,只是在下一轮融资被收购,将获得3～5倍的回报。在硅谷地
区,获得投资的公司最终能上市的概率大约是1%大家不要觉得这个比例低,它已经比世界其他地区,包括美国硅谷以外的地区和中国高很多了。至于被收购的概率,在硅谷地区大约是20比中国要高很多。我们列出三个做法:
1.平均地投入到100个初创公司。
2.利用我们的眼光投入到一家最可能的公司中。
3.利用哈夫曼编码原理投资。

如果使用第一种方法,基本上是拿到一个市场的平均回报,也就是一轮基金下来大约是31%到71%回报,如果扣除管理费和基金本身拿走的分红,出资人大约能得到20%-50%左右的回报。通常一期风险投资基金投资的时间是2～5年(持续的时间可以长达7～10年）,这样年化回报大约是5%—20%间。这是硅谷风险投资的平均水平,大家不要觉得风险投资一定能挣钱,在中国,大部分风险投资基金是赔钱的,而在硅谷赔钱的基金的比例也高达40%。

第二种方法,只投一家,这其实是赌博,如果碰上这家公司上市,有50倍的回报,碰上被收购的有2～5倍的回报,但是绝大多数情况则血本无归。如果所有的基金都玩这样的赌博,虽然平均回报率和第一种情况相似,但是投资风险高达500%。

第三种方法是按照哈夫曼编码的原理,可以先把钱分成几部分逐步投入下去,每一次投资的公司呈指数减少,而金额倍增。具体操作方法如下:
第一轮,选择100家公司,每家投入25万美元,这样用掉2500万美元。
第二轮,假定有1/3的公司即33家表现较好,每家再投入75万美元左右,也用掉2500万美元。至于剩下了的2/3已经死掉或者不死不活的公司,千万不要救它们,更不要觉得便宜去抄底。
第三轮,假定1/10的公司,即10家表现较好,每家投入250万美元,再用掉2500万美元。
第四轮,假定3%公司,即3家表现较好,每家投入800万美元左右,用掉最后的2500万美元。
这样通常不会错失上市的那一家,而且还能投中很多被收购的企业。由于大部分资金集中到了最后能够被收购和上市的企业中,占股份的比例较高,这种投资的回报要远远高于前两种,大家可以估算一下,大约有3～10倍的回报。一个系统的方法和坚守纪律能够带来3～10倍的回报,而对于凯鹏华盈来讲,投资人的经验和人脉,带来的是剩下的那几倍回报。

公司管理：Google 和Facebook等公司的管理方法,内部其实是一个大风投,各个项目一开始都有获得资源（主要是人力和财力)的可能性。但是很快,通常是三个月到半年,类似的项目就要开始整合,资源开始集中到更有希望的项目上去。最后能够变成产品上市的,是少数项目,但是大量的资源投入在其中了。今天的华为养了一个拥有几万人的庞大的预研部门也是同样的道理。

8.编码的矢量化

关键词：维度/简化/平衡

简化的必要性：人类在进入到文明社会时，需要记录的信息越来越多,开始人类就通过动词和名词的组合来表达复杂的意思。但是新概念、新事物还是不断地涌现,人类只好造出更多的象形文字。信息越多,需要的编码越多,这是文明自然演变不可避免的过程。太多不同的编码（文字）出现后,就要对编码进行简化,否则大家就没法学习了。矢量化就是简化的原则之一。

1.信息的矢量化：
信息的矢量数字化原理（VQ）：对编码进行简化法的过程,就是矢量化的过程。原理：将成千上万个彩色的形状,按照颜色和形状两个维度各四种情况,分到了16个格中。所有的图形,就被归为了16类。这便是矢量化的原理。常将信息投射到两个维度是不够的,根据应用场景会投射到多个维度中,这样的过程就被称为矢量化。

2.语言的演化，语言和文字是慢慢演化过来的,而不是人为利用信息论的编码原理刻意构造的,因此不可能只照顾易辨识和有效性,而不考虑人类接受它们的难度,以及演化的过程。相反,人们给计算机识别的单词,比如汇编语言的指令代号,基本上就是很的、等长的字母组合,因为那是完全利用编码原理人工设计的。

文字的演化,实际上就是这样一个矢量化的过程。第一步是抽象化。最初的文字和真实的物体非常相似,但是这些象形文字彼此之间缺乏共性是后面逐渐地,它们就被抽象化成一些直线或者弧线了。第二步以汉字为例来说明矢量化的过程。绝大多数汉字被映射到两个维度上,即一个表意的偏旁维度和一个示读音的发音维度。再往后,表达含义的偏旁已经和原来的图画不太像了。而这些偏旁就构成了文字的基本单元,而且慢慢固定下来了。以后有新的概念需要创作出新字时,使用那些基本单元即偏旁部首,重新组合就可以了。比如唐朝宗秦客为武则天发明了一个"瞾"字,意思是日月当空,献给武则天拍马屁。

在这里插入图片描述

拼音文字是如何矢量化的简化主要是围绕读音进行的。从复杂的楔形文字,索不达米亚人简化为几十个字母,这是一个巨大的进步,它使得人类学习读写变得很容易。再后来希腊人从腓尼基字母中总结成24个希腊字母,而罗马人又将它们变成22个拉丁字母。罗马人还在字母表中加入了x,代表所有那些无法表示的音和词,这既是英语里包含x的单词特别少的原因,也是后来人们用x表示未知数的原因。再后来拉丁文里的被拆成了i和j两个字母,v被拆成了u,V,W三个字母,最终就形成了今天英语的26个字母。拼音文字中,虽然没有表达意思的偏旁部首,但是有很多词根,前缀和后缀起到了表达意思的作用,也就是说这些语言实际上将表达信息的基本单元（单词)用一个词根、前缀、后缀这样三维的矢量表示了。

3.字体的矢量图：计算机中使用的字体有位图（bitmap)和矢量图两种。位图一经放大就会出现锯齿,而矢量图随便放大,都很清晰。它的原理是将字体的轮廓映射到一组曲线上。在显示(和打印)时,经过一系列的数学运算,恢复字体的形状。这一类字库不仅占用空间小,而且从理论上可以被无限地放大,笔划轮廓仍然能保持圆滑,非常美观

2.平衡信息的损失：如何平衡信息的便利性和完整性,是一门艺术。人在年轻的时候,总想两者兼而有之,学习了各种科学知识后,就知道这种事情在理论上就难办到。

无论是象形文字还是天然形成的拼音文字,都通过两到三个维度的矢量化兼顾了读音和达意的关系。但是,如果强制将中文拼音化,它将失去达意的功能,这不符合信息论的原则,因此做不下去。世界上人为想做的,但违背规律的事情,