爬虫日常笔记12

最新推荐文章于 2024-10-10 09:27:04 发布

weixin_43231197

最新推荐文章于 2024-10-10 09:27:04 发布

阅读量127

点赞数

分类专栏：笔记文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43231197/article/details/84680572

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

RedisSpider

继承自父类为RedisSpider
增加了一个redis_key的键，没有start_urls，因为分布式中，如果每台电脑都请求一次start_url就会重复
多了__init__方法，该方法不是必须的，可以手动指定allow_domains

爬虫创建爬虫

scrapy genspider dangdang dangdang.com

修改

引入父类
from scrapy_redis.spiders import RedisSpider

修改父类
class DangdangSpider(RedisSpider):

修改starr_urls为redis_key
start_urls = [‘http://book.dangdang.com/’]
redis_key = “dangdang”

爬虫运行

测试阶段每次都需要清空redis
flushdb

每次给redis_key添加start_url
lpush dangdang http://book.dangdang.com/

运行爬虫
scrapy crawl dangdang

注意点

在方法parse_book_list中 yield item的时候需要deepcopy
因为一个item for循环多次赋值

yield deepcopy(item)

分布式演示

可以用两台机器你自己的和同桌

本地开启两个或多个爬虫

断点续爬

请求队列有很多请求 scrapy爬取了一半突然挂掉了
再启动一个scrapy 会接着上一次请求挂掉的地方继续请求

增量式

增量式爬虫只获取新增加的数据

首先我们要把对放网站的数据全部过到对方有新增加了一些数据
然后只爬去新增加的内容

三个父类的分析

配置

去重的持久化
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”

调度器请求队列的持久化
SCHEDULER = “scrapy_redis.scheduler.Scheduler”

以上连个配置实现了请求队列的分布式

Spider

scrapy.Spider有的功能这个类都有

Crawl

通过rules中的正则表达式或者xpath提取url

Redis

添加了redis_key 使start_url实现了分布式

爬虫创建爬虫

创建爬虫
scrapy genspider -t crawl amazon amazon.cn

引入父类ReidsCrawlSpider
from scrapy_redis.spiders import RedisCrawlSpider

修改父类
class AmazonSpider(RedisCrawlSpider):

修改start_urls为redis_key
start_urls = [‘https://www.amazon.cn/图书/b/ref=sd_allcat_books_l1?ie=UTF8&node=658390051’]
redis_key = “amazon”

定时执行任务

linux crontab
windows 计划任务

weixin_43231197

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。