《数学之美》第9章图论和网络爬虫

最新推荐文章于 2021-04-14 16:08:16 发布

剑九黄

最新推荐文章于 2021-04-14 16:08:16 发布

阅读量1.7k

点赞数 1

文章标签：数学之美自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangsiji_buaa/article/details/80178978

版权

1 图论

图论的起源可追溯到大数学家欧拉所处的那个年代。

图论中所论的图由一些节点和连接这些节点的弧组成。

广度优先搜索（Breadth-First Search, 简称BFS）

深度优先搜索（Depth-First Search，简称DFS）

2 网络爬虫

在网络爬虫中，人们使用一种“散列表”（Hash Table, 也叫哈希表）而不是记事本记录网页是否下载过的信息。

现在的互联网非常庞大，不肯能通过一台或几台计算机服务器就能完成下载任务。一个商业的网络爬虫需要成千上万个服务器，并且通过高速网络连接起来。

3 图论的两点补充

3.1 欧拉七桥问题的证明

对于图中的每一个顶点，将与之相连的边的数量定义为它的度。

定理：如果一个图能够从一个顶点出发，每条边不重复地遍历一遍回到这个顶点，那么每一顶点的度必须为偶数。

证明：假如能够便利图的每一条边各一次，那么对于每个顶点，需要从某条边进入顶点，同时从另一条边离开这个顶点。进入和离开顶点的次数时相同的，因此每个顶点有多少条进入的边，就有多少条出去的边。也就是说，每个顶点相连的边的数量是成对出现的，即每个顶点的度必须是偶数。

3.2 构建网络爬虫的工程要点

首先，用BFS还是DFS？

网络爬虫对网页遍历的次序不是简单的DFS和BFS，而是有一个相对复杂的下载优先级排序的方法。

管理这个优先级排序的子系统一般称为调度系统，由它来决定当一个网页下载完成后，接下来该下载哪一个。

在爬虫中，BFS的成分多一些。

第二，页面的分析和URL的提取

若你发现一些网页明明存在，但搜索引擎没有收录，一个可能的原因是网络爬虫中解析程序没有成功解析网页中不规范的脚本程序。

第三，记录哪些网页已经下载过的小本本--URL表

为了防止一个网页被下载多次，我们可以用一个散列表来记录哪些网页已经下载过，再遇到这个网页时，我们就可以跳过它。

如何解决存储散列表的服务器的通信就成了整个爬虫系统的瓶颈。

首先，明确每台下载服务器的分工。

然后，在明确分工的基础上，判断URL是否下载就可以批处理了，比如每次向散列表发送一批询问，或者每次更新一大批散列表的内容。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数学之美》第9章图论和网络爬虫

1 图论图论的起源可追溯到大数学家欧拉所处的那个年代。图论中所论的图由一些节点和连接这些节点的弧组成。广度优先搜索（Breadth-First Search, 简称BFS）深度优先搜索（Depth-First Search，简称DFS）2 网络爬虫在网络爬虫中，人们使用一种“散列表”（Hash Table, 也叫哈希表）而不是记事本记录网页是否下载过的信息...
复制链接

扫一扫

剑九黄 CSDN认证博客专家 CSDN认证企业博客

码龄6年

122: 原创

18万+: 周排名

211万+: 总排名

27万+: 访问

: 等级

3840: 积分

92: 粉丝

107: 获赞

34: 评论

282: 收藏

私信

关注

热门文章

分类专栏

最新评论

《数学之美》第15章矩阵运算和文本处理中的两个分类问题
此心安处是吾乡^_^: 同意！
python检测英文拼写错误
潇洒佳爷: 请问如何将其在文本中进行修改呢？
Tensorflow—创建图
JpyJpy321: With tf.Session() as sess: 并不是启动默认的图，而是启动与C++进行通信的会话对象在执行sess.run(某个op)的时候，才会将构建好的计算图发送给C++ 严格意义上来说，启动默认的图，在代码执行的一开始，导入tensorflow时就启动了
Python 之 matplotlib (十五)主次坐标轴
jake484: 感谢！
python每隔2s执行一次hello world!
剑九黄回复年少无谓: 代码可移植呢？不考虑了吗～

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。