小白学爬虫：分布式爬虫（六）

最新推荐文章于 2024-11-09 18:20:30 发布

weixin_30642029

最新推荐文章于 2024-11-09 18:20:30 发布

阅读量227

点赞数

文章标签：爬虫数据库数据结构与算法

原文链接：http://www.cnblogs.com/paisenpython/p/10308391.html

版权

手把手教你写网络爬虫

摘要：从零开始写爬虫，初学者的速成指南！

下面是一个超级计算机的排行榜，如果我们能拥有其中任意一个，那么我们就不需要搞什么分布式系统。可是我们买不起，即使买得起，也交不起电费，所以我们只好费脑子搞分布式。

RankSystemCoresRmaxRpeakPower (kW)

1Tianhe-2China3,120,00033,862.754,902.417,808

2TitanUS560,64017,590.027,112.58,209

3SequoiaUS1,572,86417,173.220,132.77,890

4K Japan705,02410,510.011,280.412,660

5MiraUS786,4328,586.610,066.33,945

分布式的本质就如上期提到的一个概念：分布式系统是若干独立计算机的集合，这些计算机对于用户来说就像是单个相关系统。这就是在说，把廉价的计算机堆到一起，通过程序控制，使其整体用起来像个高性能计算机，目的就是节约成本。

对于分布式爬虫系统来说，假设1台机器能10天爬完一个任务，如果部署10台机器，那么1天就会完成这个任务。这样就用可以接受的成本，让系统的效率提高了十倍。之前介绍的单机架构是达不到这种效果的，是时候介绍新的架构了！

架构概述

与第二期介绍的通用爬虫架构不同，下面是一个聚焦爬虫的架构图，与前者相比，它不仅要保存网页，还要提取出网页中的指定内容。

号：923414804群里有志同道合的小伙伴，互帮互助，群里有视频学习教程和PDF！

Crawler_core 从任务队列获取爬虫任务，请求网页并将其存储到Mongodb，同时解析出网页中的URLs并缓存到Redis。最后通知Common-clean-platform抽取网页的指定字段。

Common-clean-platform 收到Crawler_core的通知后，从Mongodb中取出网页，根据配置进行数据抽取，形成结构化的数据，保存到Mongodb。

Scheduler_manager负责任务调度（如启停），状态控制（如爬取数量），redis资源清理等。

Resource_manager封装Mysql、Mongodb、Redis接口。Mysql存储任务基本信息、配置文件、任务实时状态等。Mongodb存储网页、结构化数据。Redis缓存队列、集合等数据结构。

Proxy代理服务器。建立网络爬虫的第一原则是：所有信息都可以伪造。你可以用非本人的邮箱发送邮件，或者通过命令行自动化鼠标的行为。但是有一件事情是不能作假的，那就是你的IP地址。如果你在爬取的过程中不想被人发现，或者不想IP被封杀，那么就需要使用代理。

笔者以前看过一个电影叫《Who Am I - No System Is Safe》，剧中的黑客老大“Who Am I”就用代理来隐藏自己，躲避FBI和其他黑客组织的追踪。

不过最终他还是被抓了，看来即使用了炫酷的技术，也不是绝对安全的。

如果你也想体验一下匿名访问网络，可以试试Tor代理服务器。洋葱路由（The Onion Router）网络，常用缩写为Tor，是一种IP 地址匿名手段。由网络志愿者服务器构建的洋葱路由器网络，通过不同服务器构成多个层（就像洋葱）把客户端包在最里面。数据进入网络之前会被加密，因此任何服务器都不能偷取通信数据。另外，虽然每一个服务器的入站和出站通信都可以被查到，但是要想查出通信的真正起点和终点，必须知道整个通信链路上所有服务器的入站和出站通信细节，而这基本是不可能实现的。

Tor 是人权工作者和政治避难人员与记者通信的常用手段，得到了美国政府的大力支持。当然，它经常也被用于非法活动，所以也是政府盯防的目标（虽然目前盯防得并不是很成功）。

流程控制 – 任务

Scheduler_manager定时读取Mysql中的任务信息，根据任务的周期等配置进行调度，下面是一个最基本的任务启停流程。