scrapy中不同item由不同pipeline处理

最新推荐文章于 2023-12-15 06:30:00 发布

皮卡丘的情绪

最新推荐文章于 2023-12-15 06:30:00 发布

阅读量1.1k

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hansome_hong/article/details/108535293

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

pipeline的关键功能是“一个item可以按照settings.py里的配置，逐步被多个pipeline所处理”。

每一步的pipeline会修改item的一些内容（比如重复性检查、错误数据修复等），或者根据item的数据做不同处理（比如有的pipeline负责把item写入日志，有的pipeline负责把item写入数据库，有的pipeline负责把item通过http发出去）。

如果一个item只需要一次操作就可完成，那就在那个用isinstance判断item类型的pipeline里调用成员方法就行。

class myspiderPipeline(object):
    def __init__(self):
        self.file = open('myadata.json', 'wb')

    def process_item(self, item, spider):
        if isinstance(item, hahaItem):
            content = json.dumps(dict(item), ensure_ascii=False) + "\n"
            self.file.write(content)
            return item
        elif isinstance(item, nihaoItem):
            return item
        elif isinstance(item, helloItem):
            print item
            return item
            
    def close_spider(self, spider):
        self.file.close()

皮卡丘的情绪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

皮卡丘的情绪

博客等级

码龄9年

59
原创

456
点赞

2063
收藏

3175
粉丝

关注

私信

热门文章

分类专栏

nginx 1篇
springboot 3篇
云原生 1篇
docker 3篇
sql 5篇
各种问题解决方案 2篇
数据库 2篇
java 4篇
linux 17篇
python
爬虫 1篇
OS 2篇
网络安全 4篇
软件安装 1篇
深度学习 1篇
算法导论 1篇
南阳acm 8篇
蓝桥杯 5篇
码农谷 1篇
水题 5篇
分治法 1篇

最新评论

50道SQL练习题
窒息And: 19和20第方法二的答案是不是少复制了，都少东西好想最下面。
50道SQL练习题
luxuyun520: hive里没问题
nginx中斜杠(‘/‘)总结
一缕82年的清风: 高质量文章，写的太棒了
nginx中斜杠(‘/‘)总结
看似简单还不懂: goodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodvvgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgoodgo
nginx中斜杠(‘/‘)总结
黄焖鸡好好7: 兄弟不错啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。