scrapy分布式爬虫部署

最新推荐文章于 2023-07-15 10:22:02 发布

尝一口温柔

最新推荐文章于 2023-07-15 10:22:02 发布

阅读量278

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/pinkmouse/article/details/83862265

版权

本文介绍了如何利用Scrapy和Redis构建分布式爬虫。首先，你需要在`settings.py`中设置Scheduler和DupeFilter，然后在item_pipeline中配置`RedisPipeline`。接着，配置Redis服务器的URL。在爬虫类文件中，继承`RedisSpider`并修改start_urls。要实现分布式，将项目复制到多台服务器，启动所有爬虫，并在Redis中推送网址。这样，所有爬虫都会运行并抓取不同的数据。最后，提供了数据库用户权限设置和Redis主从配置的指导。

摘要由CSDN通过智能技术生成

首先需要写好爬虫代码，确保爬虫可以顺利执行

分布式爬虫
1）在爬虫的settings.py中添加下面两句话
SCHEDULER = “scrapy_redis.scheduler.Scheduler”
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”

2）在item_pipeline中添加下面一句话
‘scrapy_redis.pipelines.RedisPipeline’: 300
3）在settings.py中添加下面一句话，用于配置redis
4）REDIS_URL = ‘redis://root:@192.168.9.211:6379’(自己的IP地址,Redis默认端口是6379)
5）修改爬虫的类文件
6）from scrapy_redis.spiders import RedisSpider
7）类需要继承自RedisSpider
把start_urls给注释掉
添加下面一句
redis_key = ‘（项目名称）:start_urls’
分布式用到的代码应该是同一套代码
1）先把项目配置为分布式
2）把项目拷贝到多台服务器中
3）把所有爬虫项目都跑起来
4）在redis中lpush你的网址即可
5）效果：所有爬虫都开始运行，并且数据还都不一样
创建数据库用户(用户权限为 % 让从服务器能访问该数据库,注意:sql语句 % 两端需要加引号):

grant all privileges on . to zhangsan@’%’ identified by ‘123456’;
刷新数据库权限
flush privileges;

设置redis主从

让从服务器连接:
命令:lpush redis_key的值网址

注：在这里插入图片描述
完整代码,爬去的为电影网站：

爬虫.py文件

import scrapy
from urllib.parse import urljoin
from XiaoDiaoSpider.items import MovieItem
from scrapy_redis.spiders import RedisSpider
class MovieSpider(RedisSpider):
    name = 'movie'
    allowed_domains = ['xiaopian.com']
    # start_urls = [
    #     'https://www.dy2018.com/html/gndy/dyzz/index.html'
    # ]
    redis_key = 'urls'

    custom_settings = {
        'ITEM_PIPELINES': {
           'XiaoDiaoSpider.pipelines.Save2MysqlPipeline': 300,
            'scrapy_redis.pipelines.RedisPipeline': 300,
        },
        'SCHEDULER': "scrapy_red

最低0.47元/天解锁文章

尝一口温柔

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
scrapy分布式爬虫部署

首先需要写好爬虫代码，确保爬虫可以顺利执行分布式爬虫1）在爬虫的settings.py中添加下面两句话SCHEDULER = “scrapy_redis.scheduler.Scheduler”DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”2）在item_pipeline中添加下面一句话‘scrapy_redis...
复制链接

扫一扫