Python分布式爬虫详解（一）_python 分布式requests(1)

2401_84138927

于 2024-04-29 07:00:02 发布

阅读量328

点赞数 5

分类专栏：程序员文章标签： python 分布式爬虫

本文链接：https://blog.csdn.net/2401_84138927/article/details/138299494

版权

程序员专栏收录该内容

144 篇文章 0 订阅

订阅专栏

scrapy-redis是一个基于redis数据库的scrapy组件，它提供了四种组件，通过它，可以快速实现简单分布式爬虫程序。

scrapy-redis组件：

1、Scheduler（调度）：Scrapy改造了python本来的collection.deque(双向队列)形成了自己Scrapy queue，而scrapy-redis 的解决是把这个Scrapy queue换成redis数据库，从同一个redis-server存放要爬取的request，便能让多个spider去同一个数据库里读取。Scheduler负责对新的request进行入列操作（加入Scrapy queue），取出下一个要爬取的request（从Scrapy queue中取出）等操作。

2、Duplication Filter（去重）：Scrapy中用集合实现这个request去重功能，Scrapy中把已经发送的request指纹放入到一个集合中，把下一个request的指纹拿到集合中比对，如果该指纹存在于集合中，说明这个request发送过了，如果没有则继续操作。

3、Item Pipline（管道）：引擎将(Spider返回的)爬取到的Item给Item Pipeline，scrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。

4、Base Spider（爬虫）：不再使用scrapy原有的Spider类，重写的RedisSpider继承了Spider和RedisMixin这两个类，RedisMixin是用来从redis读取url的类。

项目地址：

https://github.com/rmax/scrapy-redis

二、Scrapy-Redis 工作机制

1、首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；

2、Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

三、开始项目前的准备

1、Redis配置安装：

工欲善其事必先利其器，既然是基于redis的服务，当然首先要安装redis了。

安装Redis服务器端

 sudo apt-get install redis-server

修改配置文件 redis.conf

sudo nano /etc/redis/redis.conf

将bind 127.0.0.1注释掉。这样Slave端才能远程连接到Master端的Redis数据库。

将Ubuntu作为Master端，Windows10和Windows7作为Slaver端，在Master中开启redis-service服务。Slaver端也需要有redis。

redis-server

Slaver连接测试：

redis-cli -h MasterIP地址

至此，redis已经安装完成。

Redis可视化管理工具-Redis Desktop Manager

下载地址：

https://redisdesktop.com/download

配置方法：

2、获取自己的ip代理池

很多网站都有反爬虫机制，只用一个ip去频繁访问网站的话，很容易引起网站管理员的注意，如果管理员将这个ip加入黑名单，那么这个爬虫就废掉了。所以，想要做大型的爬虫的话，基本上是必须要面对ip的问题。

那么问题来了，我们去哪里搞代理ip呢？？第一种方法就是买买买！！没有什么事情是用钱解决不了的，如果有，那就加倍。

当然，网上也有一堆免费的ip代理，但是，免费的质量参差不齐，所以就需要进行筛选。以西刺代理为例：用爬虫爬取国内的高匿代理IP，并进行验证。（只爬取前五页，后面的失效太多，没有必要去验证了。）

爬虫：

class XiciSpider(scrapy.Spider):
    name = 'xici'
    allowed_domains = ['xicidaili.com']
    start_urls = []
    for i in range(1, 6):
        start_urls.append('http://www.xicidaili.com/nn/' + str(i))

    def parse(self, response):
        ip = response.xpath('//tr[@class]/td[2]/text()').extract()


### 最后

> **🍅 硬核资料**：关注即可领取PPT模板、简历模板、行业经典书籍PDF。  
> **🍅 技术互助**：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。  
> **🍅 面试题库**：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。  
> **🍅 知识体系**：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里无偿获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**