读《数学之美》

最新推荐文章于 2022-05-27 14:04:56 发布

常敲代码手不生

最新推荐文章于 2022-05-27 14:04:56 发布

阅读量1.5k

点赞数

分类专栏：沉羽文章标签：概率论算法抽象代数图论矩阵

本文链接：https://blog.csdn.net/see__you__again/article/details/112793798

版权

《数学之美》揭示了数学在信息交流、语言模型、搜索引擎、网络爬虫、新闻分类等领域的应用。从概率论、统计语言模型到图论、布尔代数，再到贝叶斯网络和维特比算法，作者深入浅出地探讨了数学如何塑造现代技术。此外，书中还涉及了区块链、量子密钥分发等前沿话题，展示了数学在信息安全和大数据中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数学之美

数学的发展实际上是不断的抽象和概括的过程

第十章 PageRank——google民主表决式网页排名技术

PageRank原理

第十一章如何确定网页和查询的相关性

第十二章有限状态机和动态规划（地图与文本搜索的核心技术）

第十八章谈搜索引擎反作弊问题、搜索结果权威性：略过

第二十七章、二十八章上帝算法（期望最大化算法）、逻辑回归和搜索广告-点击率预估采用了逻辑回归函数

第二十九章分值算法和Google云计算基础：略过

第三十章 GOOGle大脑和人工神经网络

第三十一章区块链数学基础——椭圆曲线加密原理

第三十二章大数据的威力：谈谈数据的重要性

第三十三章量子密钥分发的数学原理

第三十四章数学的极限

第一章

香农提出新信息论，数学和信息联系起来
语言的本质就是通信，信息通过信道进行编码、解码的过程
一词多义需要通过上下文来消除歧义
信息的冗余是信息安全的保障，一份信息多种语言备份
语言的数据——语料，对翻译至关重要
进位制的发明，就是对数量进行编码，不同的数字代表不同的量（罗马数字解码规则是加减法，小数字在大数字左边为减，右边为加；）
文字规则：常用字短，生僻字长；暗含信息论中的最短编码原理，窄带压缩，宽带不压缩；校验码的产生

第二章（从规则到统计）

任何一种语言都是一种编码方式，语法规则就是编解码的算法。语言的数学本质：信息交流其实就是用同一个语法规则对信息进行编解码过程

机器能否懂得自然语言？1、机器能否处理自然语言？如果能处理方法是否和人一样？答案：yes

图灵测试：判断机器是否智能的标准。人和机器进行交流，如果人无法判断自己交流的对象是人还是机器，就说明机器有智能了。
基于规则的研究方向坚持了15年后终于过渡到基于统计的自然语言处理：机器翻译、语音识别、数据挖掘、深度学习
“老科学家”：钱钟书的围城解释到含义一：老的科学家；含义二：老科学的家。如果是后者，必须耐心等待他们退休让出位子，毕竟不是所有人都乐意改变自己的观点，无论对错。

第三章统计语言模型

一个有意义的句子S是否合理：可以通过判断可能性大小思路来研究——概率来计算：概率越大该语句越有意义、越合理；
S取决于其中每个词出现的概率P(s)=P(w1,w2,w3...wn)——,条件概率公式变换——马尔科夫假设（只跟前一个单词出现概率有关）——简化为二元模型——统计次数计算比值近似等于概率（大数定律支撑）
N元模型、模型的训练（模型中的所有条件概率称之为模型的参数），通过对语料的统计，得到这些参数的过程称之为模型的训练——大数定理：要求有足够多的观测值
0概率问题、统计量不足问题、统计的可靠性如何解决。
古德-图灵估计：对于没有看见的事情，不能认为发生的概率为零，因此从概率总量中，分配一个很小的比例给这些没有看见的事情。看见的事情的总概率和小于1，也即将所有看见事情概率调小一点，调小多少，根据“越是不可信的统计折扣越多”方法进行

第四章分词

最简单的方法：查字典，从左到右依次依次扫描字典，无法解决分词二义性
统计语言模型可以解决分词二义性：最好的分词对应的词串，一定能保证分完词后这个句子出现的概率最大。利用第三章出现的模型计算概率最大的词串就可以找到最好的分词方法

动态规划+维特比算法快速找到最佳分词

同样的一个词语，在不同的应用中，会有一种颗粒度比另外一种颗粒度更好的情况：比如“清华大学”如果作为一个词网页分词后用户查询“清华”时，找不到清华大学，这是有问题的；也就是说清华大学既要被看成一个整体，又要可以被切分开；

正常思维处理：针对不同的应用构造不同的分词器。缺点是浪费，存在重复

高级处理方式：让一个分词器支持不同层次的词的切分。

实现方式：1、需要一个基本词表和一个复合词表。基本词表包含“清华”、“大学”无法再分的词；复合词包含复合词已经它们有哪些基本词构成，比如“清华大学：清华-大学”“搜索引擎：搜索-引擎”.\

2、针对基本词表和复合词表各建立一个语言模型，分别为L1和L2.

3、根据基本词表和语言模型L1对句子进行分词，得到小颗粒度分词结果；（基本词比较稳定+分词方法已经解决，偶尔添加个别新词，不需要额外工作量）：输入字串S1，输出基本词串R1；

4、再用复合词和语言模型L2进行二次分词，这是输入是R1，输出是复合词串，词表和语言模型改变了，但是分词的核心程序同第三步一样，可以进行复用。（复合词是近年来中文分词的主要工作重点，不断的进行完善，尽可能找到各种复合词）

分词的准确性问题：
错误和颗粒度不一致：错误主要是越界型错误：比如“北京大学生”翻译成“北京大学-生”；另一类是覆盖型错误“北京大学”翻译成“北-京-大-学”

第五章隐马尔科夫模型

自然语言处理转化为——通信系统的解码问题：如何根据接收端接收到的信号o1,o2,o3...来推测发送端发送的信号s1,s2,s3？从所有的源信息中找到最可能产生出观测信号的那个一个：从概率来说就是已知接收端信号o1,o2,o3...求条件概率最大的s1,s2,s3
贝叶斯公式变形转化
随机变量（静态）的研究——随机过程（动态的：随机变量的时间序列）；随机过程更复杂
马尔科夫假设：随机过程中各个状态st的分布只与他的前一个状态有st-1有关；符合马尔科夫假设的随机过程称为马尔科夫过程或者马尔科夫链：马尔科夫链有向图、状态转移概率
隐马尔科夫模型：任一时刻t的的状态st是不可见的。无法观察到一个状态序列s1,s2,s3。。。st来推测转移概率等参数。但是每个时刻t会输出一个符号ot，这个ot跟st相关，且紧跟st相关。——独立输出假设
基于独立输出假设，可以计算出某个特定转态序列s1,s2,s3。。。st产生出符号o1,o2,o3...的概率

第六章信息的度量和作用

香农——信息熵：信息的信息量和不确定性有关，香农公式。类似热力学熵
一本50万字的书，常用汉字大约7000个，每个汉字等概率，一个汉字需要13比特表示。实际上前10%汉字占据书中95%以上，大约8-9比特。因此一本50w字书信息量大学250w比特。压缩算法进行压缩，可以压缩到320kB。两字节的国标码存储需要1M大小，两个数量的差距称之为冗余度。一本书的重复内容越多，信息量越小，冗余度就越大。
信息的作用：消除不确定性，自然语言的处理的大量问题就是寻找相关信息。二元模型不确定性<一元模型不确定，三元模型不确定小于二元模型不确定。也即三元比二元好，二元比一元好；
互信息：两个随机事件相关性的量化度量。
互信息的作用：机器翻译中的二义性（歧义性）？如何正确的翻译二义词：利用互信息，从大量文本中找出和二义词的某一个意义一起出现的互信息量最大的一些词；同样方式找出和二义词的另外一个意义一起出现的互信息量最大的一些词；有了这两组词，在翻译二义词时看看上下文中哪类相关词多就可以了。