使用scrapy_redis分布式爬虫爬取壁纸网站

最新推荐文章于 2022-10-24 17:48:37 发布

搬砖的乔布梭

最新推荐文章于 2022-10-24 17:48:37 发布

阅读量753

点赞数

分类专栏： Python爬虫完全攻略

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010986776/article/details/79264899

版权

Python爬虫完全攻略专栏收录该内容

16 篇文章 12 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍如何利用scrapy_redis搭建分布式爬虫，处理大规模爬虫项目。通过master端的redis数据库进行高速数据写入和转存，slave端爬虫监听master指令进行爬取。重点在于环境配置和调试，项目代码主要由item类、爬虫类、设置类、下载中间件和数据处理类组成。启动包括master端redis服务器和slave端scrapy爬虫程序。

摘要由CSDN通过智能技术生成

@概述

对于比较庞大的爬虫项目，可以考虑分工在多台服务器上进行分布式爬取
master端安装redis内存数据库，实现高速写入和转存（必须要转存，否则断电或程序崩溃，则数据将不复存在）
slave端爬虫程序运行起来后，会监听master端发送的指令并开始爬取，数据在scrapy_redis框架作用下，会源源不断地存储到master端redis数据库
master端redis的安装以及slave端scrapy_redis的安装请参考《分布式爬虫环境配置》
除了环境配置以外，代码与scrapy基本是一致的
代码很好理解，难点主要在于环境的配置和调试

@环境的安装

master端redis的安装请参考：http://blog.csdn.net/xiangwanpeng/article/details/54586087
slave端安装scrapy_redis：sudo pip install scrapy_redis

@项目代码

项目代码的框架来自于scrapy_redis官方提供的示例代码：

了解本专栏

超级会员免费看

搬砖的乔布梭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

搬砖的乔布梭 你好我是秦始皇转世，资助请从速

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。