scrapy-redis 分布式学习记录

最新推荐文章于 2024-04-09 15:15:46 发布

lucky404

最新推荐文章于 2024-04-09 15:15:46 发布

阅读量367

点赞数

分类专栏：爬虫文章标签： scarpy 分布式爬虫

本文链接：https://blog.csdn.net/lucky404/article/details/79427397

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

学习了scrapy 爬虫框架觉得这个框架做数据抓取很好用，但是不支持分布式。网上查了有大牛在它基础上进行改进出了一个scrapy-redis 的框架

在网上找了很多教程，但是都没有说到基于scrapy-redis从 0 搭建分布式爬虫框架的。
因此我决定自己从 0 开始搭建并把整个过程记录下来希望后来的人少走一些弯路（环境是基于Red Hat Enterprise Linux Server release 7.2 (Maipo)， redis 版本是 redis-4.0.1 python 版本是2.7）

Master 端的配置以及redis的安装

首先这个scrapy-redis 是基于 redis 数据库来实现的分布式因此必须要先安装好 redis
以下操作是以root 用户来进行
1.1 创建redis 安装目录
mkdir /usr/local/redis
1.2 切换到redis 目录并下载 redis
cd redis
1.3 wget http://download.redis.io/releases/redis-4.0.1.tar.gz
1.4 解压并安装 redis
tar -xf redis-4.0.1.tar.gz
cd redis-4.0.1
make && make install
1.5 修改redis 的配置（修改redis.conf）默认的redis 监听端口是127.0.0.1 改成你本机的ip
1.6 启动redis (启动的信息会输出到 nohup.out 中)
cd src
nohup ./redis-server ../redis.conf &

安装scrapy

 pip install scrapy_redis

新建一个项目 scrapy startproject MySpider

出现了错误 AttributeError: 'module' object has no attribute 'OP_NO_TLSv1_1'
原因是 pip 安装时 Twisted默认是安装了最新的  Twisted-17.9.0 把 Twisted 卸载掉 安装一个版本比较低的

3.1 卸载 Twisted
pip uninstall Twisted
3.2 更换其他版本的 Twisted
pip install twisted==15.0.0
3.3 然后再尝试新建项目
scrapy startproject MySpider
3.4 创建好项目之后我需要在spider 目录下面创建一个master.py 这个就是master(负责获取url 并保持到redis的队列中，以供其他的slave 使用) 然后再创建一个UserAgent.py (这个文件保存了常用的http 请求头)
scrapy-redis

4 配置scrapy 当我们建立好项目之后，就需要修改settings.py 文件在里面添加配置

// redis ip
REDIS_HOST = “192.168.1.52”
// redis 端口
REDIS_PORT = 6379
// 使用redis 存储任务调度
SCHEDULER = “scrapy_redis.scheduler.Scheduler”
// 使用redis 配置去重
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
ROBOTSTXT_OBEY = False