怎样编写scrapy扩展

最新推荐文章于 2022-01-24 21:14:10 发布

VIP文章 young-hz

最新推荐文章于 2022-01-24 21:14:10 发布

阅读量8.1k

点赞数

分类专栏： Scrapy Scrapy 文章标签： scrapy 扩展

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012150179/article/details/38226477

版权

原创文章，链接：http://blog.csdn.net/u012150179/article/details/38226477

在scrapy使用过程中，很多情况下需要根据实际需求定制自己的扩展，小到实现自己的pipelines，大到用新的scheduler替换默认的scheduler。

扩展可以按照是否需要读取crawler大致分为两种，对于不需要读取的，比如pipelines的编写，只需要实现默认的方法porcess_item。需要读取的，如scheduler的编写又存在另外的方式。

1.第一种

这种处理起来比较简单，一般是根据scrapy的signals实现相应的处理。具体实现可见文档pipelines的编写方法。

2.第二种

（1）区别：

这种方式和第一种的主要区别是需要使用crawler内部信息，比如接收内部信号，如signals.spider_opened等。还体现在对设置setting.py的是否需要读取上。

（2）实现：

i)读取设置一般通过from_settings函数实现。一下是scrapy-redis中scheduler的from_settings的实现方法：

def from_settings(cls, settings):
        persist = settings.get('SCHEDULER_PERSIST', SCHEDULER_PERSIST)
        queu

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
怎样编写scrapy扩展

原创文章，链接：在scrapy使用过程中，很多情况下需要根据实际需求定制自己的扩展，小到实现自己的pipelines，大到用新的scheduler替换默认的scheduler。扩展可以按照是否需要读取crawler大致分为两种，对于不需要读取的，比如pipelines的编写，只需要实现默认的方法porcess_item。需要读取的，如scheduler的编写又存在另外的方式。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。