《数学之美》读后感

最新推荐文章于 2022-09-05 21:04:50 发布

北邮张博

最新推荐文章于 2022-09-05 21:04:50 发布

阅读量4.5k

点赞数 5

分类专栏：生活思考文章标签：数学通信语言自然语言处理

本文链接：https://blog.csdn.net/Irving_zhang/article/details/74295575

版权

生活思考专栏收录该内容

4 篇文章

订阅专栏

本周实验室的服务器因为装修暂时断电，终于难得可以静下心来看一本书。作为有志于从事自然语言处理行业的研究生，《数学之美》都应该是入门必看书籍了。本周通读一遍下来，最大的感触就是本书涉及到自然语言处理的很多方面，但是具体的数学推导，还是略显啰嗦。下面就每章的内容，做一点简单的评述，用以备忘。

第一章《文字和语言vs数字和信息》：作为通信狗，自然少不了对祖师爷香农的膜拜。香农将数学和信息结合起来，提出了信息熵的概念，自此信息领域才开始了突飞猛进的发展。本书难得的一点，是从古人设计语言时遇到的问题开始讲起，提出了现代自然语言处理中存在的问题，让我们对其中的数学问题有了直观的认识。

第二章《自然语言处理—-从规则到统计》：本章是我最有话想讲的一章。去年暑假，在学长的帮助之下，将基于规则的文本分类模型和基于统计的自然语言模型进行了融合，然后希望写出一篇提高文本分类的文章，可是现在论文被退了回来，拒稿的理由：自然语言处理就是从规则走向统计的研究方法，本文研究的重点走偏了。而且实验做的不太充足，看来接下来不仅要改进实验结果，更要改进实验的方向了。
最早进行语言处理，首先要研究语法规则，基于文法分析树（Syntactic Parse Tree）语法对语法规则进行分析（如NLTK的句法分析树），然后添加规则进行说明，但是在某种情况下会出现矛盾。所以穷尽语言学家的精力也没有办法做到覆盖20%的真实句子。所以，很自然的出现了基于统计的句法分析。举一个很简单的例子：（“我爱北京邮电大学”和“北爱大京学我邮电”哪个句子是正确的）那么即利用数学方法，判断哪个句子出现的概率更大即可。

第三章《统计语言模型》：自然语言的处理找到了一种合适的方法—基于统计的模型，概率论的知识开始发挥作用。二元模型、三元模型、多元模型，随着元数增多，语言模型越准确，到了四元以后，模型效果提升就不明显，但是计算资源的消耗一直是呈指数增长。所以一般的语言模型都会取二元、三元最多四元的模型。

第四章《谈谈中文分词》：中文分词的主要工具有结巴分词、NLKT、THULAC等。同上面几章讲的一样，如果采用暴力的方法就是查字典法，但是这种方式既低效又容易出错。比如“北京大学生”会被分为北京大学+生而不是北京+大学生。所以正确的方式，还是应该找到最大概率的分词结果，如果穷举出所有的分词方法，那么计算量就很搭，实际上这是一个动态规划的问题，利用维特比算法进行求解。下面给出一张图，如果有这样一个句子“ABCDEF”，那么A,B,C,D,E,F对应的单字为观测变量，对应的分词结果比如AB,C,DEF为隐变量，那么看下图就可以对应到隐式马尔科夫模型中进行求解了。
这里写图片描述

第五章《隐马尔科夫模型》：马尔科夫链如果有了输出，就变为了隐式马尔科夫模型。关于隐马建议参照http://www.cnblogs.com/skyme/p/4651331.html进行学习。而作为通信狗，通过对卷积码的译码过程的刷题，早已对求解隐马的维特比算法烂熟于心。再次觉得本科的牛凯老师教的通信原理太好了。而本章对于隐马的讲解，如果内行人看了觉得写的很烂，外行人看了觉得云里雾里。所以还是去阅读相关的书籍比较好。

第六章《信息的度量和作用》：信息论给出了信息的度量，它是基于概率的，概率越小，其不确定性越大，信息量就越大。引入信息量就可以消除系统的不确定性，同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量，这一点与热力学中的熵概念相同。当时对信息论云里雾里的，现在想想确实应该多对这些知识点进行具象化的描述，不然老是看到高大上的词总觉得心里怕怕的。

第七章《贾里尼克和现代语言处理》：建议不看。演绎成分很重，而且你越看越觉得自己老师不负责任，越看心里越气。

第八章《简单之美—-布尔代数和搜索引擎的索引》：讲述了布尔类型的数怎么出现的。

第九章《图论和网络爬虫》：互联网有很多网页，这些可以看成一个整体。因此会有很多导航网站。因此通过对图的遍历，加上编程语言的HTTP请求，可以得到大多数的网页，当然这个过程也涉及到了爬虫与反爬虫的问题，暂且不表。所以，数据结构和通信网中的遍历、最大流、最小费用流、最短路径等算法都是多么重要啊！

第十章《PageRank—-Google的民主表决式网页排名技术》：在google中搜索关键字，如何对返回的网页进行排名。假设向量B=(b1,b2,…bN)T ，矩阵A为M*M的矩阵，其中Amn代表第m个网页指向第n个网页的链接数。经过多次迭代，可以得到B=A*B，采用迭代的方法可以使得B最终趋于收敛。

第十一章《如何确定网页和查询的相关性》：TF-IDF是一个很常用的权值计算公式。在文本分类中可以用来筛选特征词。详细解析请看我的另一篇博客： http://blog.csdn.net/irving_zhang/article/details/52214130。本书中给了TF-IDF的信息论的解释，是符合直观的印象的。

第十二章《地图和本地搜索的最基本技术——有限状态机和动态规划》：前几章中提到的马尔科夫链和隐式马尔科夫模型多事有限状态机的拓展。地址的解析依靠有限状态机，当用户输入的地址不太标准或有错别字时，希望进行模糊匹配，提出了一种基于概率的有限状态机。本章中提到的地址分析和地图导航，实际上都是隐马模型，求解的过程使用的思想就是维特比算法。

第十三章《Google AK-47 的设计者——阿米特·辛格博士》：本章按照本书的说法就是信息熵最小的一章。

第十四章《余弦定理和新闻的分类》：还是建议初学者自己动手做一个文本分类的系统，这样对于TF-IDF、卡方公式、分词、去除停用词以及常用的贝叶斯和SVM等分类算法有很好的理解。

第十五章《矩阵运算和文本处理中的两个分类问题》：奇异值分解的问题在《矩阵论》中提到了很多，研究生课程中矩阵论还算是有很大用处的。值得一提的是，奇异值分解实际上是主成分分析的一种实现，还有很多种降维的方式可以参见PRML一书。

第十六章《信息指纹及其应用》：信息指纹可以作为信息的唯一标识。常用的哈希值和MD5算法等进行下载验证的方法都属于信息指纹。这样可以减少爬虫程序判断是否下载过某网页的消耗资源。回归自然语言处理，信息指纹应用可以判断两个集合是否相同。比如“北京中关村星巴克”和“星巴克中关村北京”是否为同一集合，只需要计算单词的信息指纹，然后相加，判断两个集合的和是否相等即可。

第十七章《由电视剧《暗算》所想到的——谈谈密码学的数学原理》：RSA加密算法，有两个完全不同的钥匙，一个用于加密，一个用于解密。该算法里面主要思想就是费马小定理（阮一峰的博客对其加密解密过程有详细论述http://www.ruanyifeng.com/blog/2013/07/rsa_algorithm_part_two.html）。RSA是典型的非对称加密传输的结构，大整数的因数分解，是一件非常困难的事情。目前，除了暴力破解，还没有发现别的有效方法。电影《模仿游戏》中由图灵破解的恩格玛也是一种常用的加密算法，推荐大家去看（https://www.zhihu.com/question/28397034）。

第十八章《闪光的不一定是金子——谈谈搜索引擎反作弊问题》：把搜索反作弊看成是通信模型，作弊当做是加入的噪声，解决噪声的方法：从信息源出发，增强排序算法的抗干扰能力；过滤掉噪声，还原信息。只要噪声不是完全随机并且前后有相关性，就可以检测到并消除。通信系统中，信号和噪声在频域内的峰值对应的频率是不同的，此时在频域上进行滤波，就相当于在时域进行卷积。
对于搜索结果的权威性，包含了句法分析、互信息和词的聚类，对于搜索结果的度量，都是建立在各种数学模型的基础上的。

第十九章《谈谈数学模型的重要性》：各行各业背后都是数学模型，但是国内的数学系的教育大多枯燥难懂，很难使人提起兴趣。这也是大家为什么都说科研不赚钱，工程赚钱了。但是技术决定了一个人的下限，修养才决定了一个人的上限。

第二十章《不要把鸡蛋放在一个篮子里——谈谈最大熵模型》：对一个随机事件预测时，当各种情况概率相等时，信息熵达到最大，不确定性最大，预测的风险最小。最大熵模型的训练非常复杂，需要时查看资料做进一步的理解。

第二十一章《拼音输入法的数学原理》：输入法经历了以自然音节编码，到偏旁笔画拆字输入，再回归自然音节输入的过程。拼音输入法的其实就是一个隐式马尔科夫链，拼音对应显式状态，词汇对应因式状态，求解的方法依然是使用维特比算法，画出篱笆图（或者叫网格图）。求得每一步得最大概率，最后得到整体词汇概率最大的几个词作为候选词。

第二十二章《自然语言处理的教父马库斯和他的优秀弟子们》：建议略去不看。

第二十三章《布隆过滤器》：判断一个元素是否在一个集合当中时，用到了布隆过滤器，存储量小而且计算快速。其原理是：建立一个很长的二进制，将每个元素通过随机数产生器产生一些信息指纹，再将这些信息指纹映射到一些自然数上，最后在建立的那个很长的二进制上把这些自然数的位置都置为1。布隆过滤器的不足之处是它可能把不在集合中的元素错判成集合中的元素，但在某些条件下这个概率是很小的，补救措施是可以建立一个小的白名单，存储那些可能误判的元素。布隆过滤器背后的数学原理在于完全随机的数字其冲突的可能性很小，可以用很少的空间存储大量的信息，并且由于只进行简单的算术运算，因此速度非常快。

第二十四章《马尔科夫链的扩展——贝叶斯网络》：贝叶斯网络是马尔科夫链的扩展，由简单的线性链式关系扩展为网络的关系，但贝叶斯网络仍然假设每一个状态只与它直接相连的状态相关。与这两者相似的概念还有马尔科夫网络，需要加以区分。马尔科夫链只是一个有向链，贝叶斯网络为有向无环图，条件随机场是无向无环图。七月算法对贝叶斯网络有一个简短的介绍，可以一看（http://www.julyedu.com/video/play/23/21）。

第二十五章《条件随机场和句法分析》：句法分析是分析出一个句子的句子结构，对于不规则的句子，对其进行深入的分析是很复杂的，而浅层的句法分析在很多时候已经可以满足要求了。条件随机场就是进行浅层句法分析的有效的数学模型。条件随机场与贝叶斯网络很像，不用之处在于，条件随机场是无向图，而贝叶斯网络是有向图。条件随机场的训练很复杂，简化之后可以参考最大熵训练的方法。对于条件随机场的详细参数及原理还不理解。

第二十六章《维特比和他的维特比算法》：维特比算法是一个动态规划算法，凡是使用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采用逐步渐进的方法，计算到每步的最短距离，到下步的最短距离只用接着本步的计算即可，相比穷举法，大大缩短了计算的时间，并且基本可以实现实时的输出，这看似简单，但在当时确是很了不起的。

第二十七章《再谈文本分类问题——期望最大化算法》：该章讲的其实就是K均值聚类问题，设置原始聚类中心，然后不断迭代，直至收敛，将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法（EM）。首先，根据现有的模型，计算各个观测数据输入到模型中的计算结果，这个过程称为期望值计算过程，或E过程；接下来，重新计算模型参数，以最大化期望值，这个过程称为最大化的过程，或M过程。优化的目标函数如果是个凸函数，则一定有全局最优解，若不是凸函数，则可能找到的是局部最优解。在以后的一些问题求解过程中，应该考虑其是否是EM问题，也可以考虑参考这种思想，不断迭代以优化目标的过程。

第二十八章《逻辑回归和搜索广告》：雅虎和百度的竞价排名广告并不比谷歌的根据广告的预估点击率来客观的推送广告收入多。点击预估率有很多影响因素，一种有效的方法是逻辑回归模型，逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相似。同样不是很理解其具体内涵。

第二十九章《各个击破和Google云计算的基础》：分而治之，各个击破是一个很好的方法，Google开发的MapReduce算法就应用了该方法。将一个大任务分成几个小任务，这个过程叫Map，将小任务的结果合并成最终结果，这个过程叫Reduce，该过程如何调度、协调就是工程上比较复杂的事情了。可见大量用到的、真正有用的方法往往简单而又朴实。