scrapy 分布式 mysql_使用scrapy实现分布式爬虫

最新推荐文章于 2024-05-03 22:14:14 发布

乾泽

最新推荐文章于 2024-05-03 22:14:14 发布

阅读量354

点赞数

文章标签： scrapy 分布式 mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36288992/article/details/113468420

版权

分布式爬虫

搭建一个分布式的集群，让其对一组资源进行分布联合爬取，提升爬取效率

如何实现分布式

1.scrapy框架是否可以自己实现分布式？

不可以！！！

其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器)

其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久化存储。(多台机器无法共享同一个管道)

2.基于scrapy-redis组件的分布式爬虫

- scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

- 实现方式：

1.基于该组件的RedisSpider类

2.基于该组件的RedisCrawlSpider类

3.分布式实现流程：上述两种不同方式的分布式实现流程是统一的

- 3.1 下载scrapy-redis组件：pip install scrapy-redis

- 3.2 redis配置文件的配置：

-linux或者mac：redis.conf-windows:redis.windows.conf

修改- 注释该行：bind 127.0.0.1，表示可以让其他ip访问redis- 将yes改为no： protected-mode no，表示可以让其他ip操作redis

3.3 修改爬虫文件中的相关代码：

- 将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。

注意：如果原始爬虫文件是基于Spider的，则应该将父类修改成RedisSpider，如果原始爬虫文件是基于CrawlSpider的，则应该将其父类修改成RedisCrawlSpider。

- 注释或者删除start_urls列表，且加入redis_key属性，属性值为scrpy-redis组件中调度器队列的名称

3.4 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

ITEM_PIPELINES ={'scrapy_redis.pipelines.RedisPipeline': 400}

3.5 在配置文件(setting)中进行相关配置，开启使用scrapy-redis组件中封装好的调度器

#增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据

SCHEDULER_PERSIST = True

3.6 在配置文件中进行爬虫程序链接redis的配置：

REDIS_HOST = 'redis服务的ip地址'REDIS_PORT= 6379REDIS_ENCODING='utf-8'REDIS_PARAMS= {'password':'xx'}

3.7 开启redis服务器：redis-server 配置文件

3.8 开启redis客户端：redis-cli (-h ip -p 6379)

3.9 运行爬虫文件：scrapy runspider SpiderFile(x.py)

3.10 向调度器队列中扔入一个起始url(在redis客户端中操作)：lpush redis_key属性值起始url

分布式爬虫案例

需求：爬取网易新闻国内，国际，军事等板块内容

基于RedisSpider实现的分布式爬虫

selenium如何被应用到scrapy

a) 在爬虫文件中导入webdriver类

b) 在爬虫文件的爬虫类的构造方法中进行了浏览器实例化的操作

c) 在爬虫类的closed方法中进行浏览器关闭的操作

d) 在下载中间件的process_response方法中编写执行浏览器自动化的操作

spider文件

#-*- coding: utf-8 -*-

importscrapyfrom selenium importwebdriverfrom selenium.webdriver.chrome.options importOptionsfrom scrapy_redis.spiders importRedisCrawlSpiderfrom wangSpider.items importWangspiderItemclassWangSpider(RedisCrawlSpider):

name= 'wang'

#allowed_domains = ['www.xxx.com']

#start_urls = ['https://news.163.com/']

#调度器队列的名称

redis_key='wangyiurl'

def __init__(self):

options=webdriver.ChromeOptions()

options.add_argument('--window-position=0,0'); #chrome 启动初始位置

options.add_argument('--window-size=1080,800'); #chrome 启动初始大小

self.bro =webdriver.Chrome(

executable_path='C://xx/PycharmProjects/djnago_study/spider/wangSpider

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy 分布式 mysql_使用scrapy实现分布式爬虫

分布式爬虫搭建一个分布式的集群，让其对一组资源进行分布联合爬取，提升爬取效率如何实现分布式1.scrapy框架是否可以自己实现分布式？不可以！！！其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器)其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久化存储。(多台机器无法共享同一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。