浅谈《数学之美》②——搜索引擎、爬虫、PageRank、网页查询、本地搜索、新闻分类

本文链接：https://blog.csdn.net/qq_44614524/article/details/100065645

太久没更新了，小编开始以为本书只有前面会讲到自然语言处理的知识，因此大胆的将第一个读书总结写成了自然语言处理部分，往后看了之后发现：貌似整个书都是围绕着自然语言处理方向展开。现在大致介绍《数学之美》（吴军）著第二版，第八章到第十四章内容。

第八章布尔代数和搜索引擎：
① 搜索引擎的基本原理：首先：自动下载尽可能多的网页；然后，建立快速有效的索引；最后，根据相关性对网页进行公平准确的排序。
② 计算机做布尔运算是非常快的，速度在每秒数十亿次以上。
③我们的搜索引擎为什么可以在几秒的时间内可以找到成千上万的搜索结果?他的实现原理基本跟我们图书馆的索引卡片原理类似。即，基于数据库，并且数据库的查询语句（SQL）支持各种复杂的逻辑组合，但是背后的基本原理是基于布尔运算的。
④当代索引的实现：显然现在的互联网信息只采用一个服务器是不可能存储的下，所以这些索引就需要通过分布式的方式存储到不同的服务器上，普通的做法就是根据网页的序号将索引分成很多份，分别存储在不同的服务器中。每当接受一个查询时，这个查询就被分发到许许多多服务器中，这些服务器同时进行并行处理用户的请求，并把结果发送到主服务器进行合并处理，最后将结果返回给用户。

第九章图论和网络爬虫：
① 网络爬虫：利用超链接，从任何一个网页出发，用图的遍历算法，自动的访问到每一个网页并把他们存起来，完成这个功能的程序叫网络爬虫。
② 在网络爬虫中，人们使用散列表而不是记事本来记录是否下载过的信息。因此这个存储散列表的服务器的通信就成了整个爬虫系统的瓶颈。
③爬虫基本上使用的是BFS，但是是不是DFS就不适用了呢？答案是否定的，这与爬虫的分布式结构以及网络通信的握手成本有关，握手就是指下载服务器和网站的服务器建立通信的过程。

第十章 PageRank——Google的民主决策表达式网页排名技术：
①对于有一个特定的查询，搜索结果的排名取决于两组信息：关于网页的质量信息；这个查询与每个网页的相关性信息。
②PageRank的核心思想：在互联网上，如果一个网页被很多其他网页所链接，说明他收到普遍的承认和信赖，那么他的排名就高。并且，网页排名高的网站贡献的链接权重大，这一点与我们投票选举有异曲同工之妙。

第十一章如何确定网页和查询的相关性：
①影响搜索引擎的诸多因素，除了用户的点击数据之外大概可以归为以下四大类：完备的索引、对网页质量的度量、用户偏好、确定一个网页和某个查询的相关性的方法。
②我们在用户输入的数据中将其分为很多关键字，由于不同篇幅的网页包含关键字的个数不同，这将影响我们给用户推荐网页的排名。因此，我们需要根据网页的长度，对关键词的次数进行归一化，也就是用关键词的次数除以网页的总次数。我们将这个商称为“关键词频率”或者“单文本词频（Term Frequence）”。
③有一些词，例如：的、是、和等等，他们对确定网页的主题几乎没什么用处，这种词我们叫他“停止词”，在度量相关性的时候不应该考虑他们的频率。
④假定一个关键词w在D个网页中出现过，那么D越大，w的权重越小，反之亦然。在信息检索中，使用最多的权重就是“逆文本频率指数(Inverse Document Frequence)”。公式为log(m/D)，其中的m为全部网页数。TF-IDF的概念被认为是信息检索中最重要的发明。
⑤IDF的概念就是一个特定条件下关键词的概率分布的交叉熵。

第十二章有限状态机和动态规划：
①地址的文法是上下文有关文法中相对简单的一种，但最有效的是有限状态机。它是一个特殊的有向图，包括一些状态（节点）和连接这些状态的有向弧。每一个有限状态机都有一个开始状态和终止状态，以及若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。
②使用有限状态机识别地址，主要解决两个问题。第一，通过一些有效的地址建立状态机；第二，给定一个有限状态机之后，地址字串的匹配算法。
③全球导航的关键算法是计算机科学图论中的动态规划算法。
④有限状态机在语音识别和自然语言理解中起着很重要的作用，不过在这些领域使用的是一种特殊的有限状态机——加权的有限状态传感器（WFSF）。

第十三章阿米特·辛格博士：
这一章主要为人物介绍，不再赘述，有兴趣可以直接百度

第十四章余弦定理和新闻的分类：
①分类新闻，就需要我们首先了解它的主题。对于一篇新闻中的所有实词，计算出它的TF-IDF值。把这些值按照对应的实词在词汇表中的位置依次排列，就会得到一个向量。我们就用这个向量代表这个新闻，并称之为新闻的特征向量。向量中每一个维度的大小代表每个词对这篇新闻主题的贡献。
两这种新闻分类的算法：
②第一种：假定我们已经知道一些新闻类别的特征向量，那么对于一个即将被分类的新闻x，我们直接计算其与其他各类新闻特征向量的余弦相似值（距离），并将其归到那一类中去。
③第二种：假定我们事先不知道这些新闻类别的特征向量。假设我们现在有N篇新闻，我们可以利用每一篇新闻的特征向量分别和其余N- 1篇新闻的特征向量进行计算，计算出二者的余弦值。我们可以设置一个阈值，如果二者的余弦值大于阈值，我们就将这两者归为一类，最终会合并成N1个小类（N1 < N），然后将每个小类作为一个整体，两两计算他们之间的余弦相似性如此往复，自动分类过程就完成了。
④删除虚词，不仅可以提高计算速度，对于新闻分类的准确性也有很大的好处，因为虚词的权重其实是一种噪音，干扰分类的正常进行。
第十五章矩阵运算和文本处理中的两个分类问题：
①之前我们介绍的计算余弦值的方法会耗费一些时间，我们希望一次性可以将所有新闻相关性计算出来，这个方法就是矩阵运算中的奇异值分解（简称：SVD）
②奇异值分解法的分解结果相比于利用文本特征向量余弦的距离自底向上的分类方法得到的结果来讲，它的结果略显粗糙，但他的优点是可以较快的得到结果。在实际应用中，一般是先进行奇异值分解，得到粗分类的结果，再利用计算向量余弦的方法，得到比较精确的结果。