一个爬虫项目里有多个爬虫，如何识别数据来源

最新推荐文章于 2020-11-29 02:59:54 发布

weixin_30252155

最新推荐文章于 2020-11-29 02:59:54 发布

阅读量159

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/zhiliang9408/p/10003555.html

版权

问题描述：在一个爬虫项目里有多个爬虫进行数据的爬取，如何在pipeline中识别数据是来自哪个爬虫的，

方法：

方法一：在爬虫的parse函数下，对爬取的数据添加一个标识字段：

1 def parse(self, response):
2     item["come_from"]="spider_name"

方法二：在pipelines.py中的process_item函数里的spider的属性来判断：

1 class MyspiderPipeline(object):
2     def process_item(self, item, spider):
3         if spider.name=="spider_name":#spider_name是自己定义的爬虫名
4

转载于:https://www.cnblogs.com/zhiliang9408/p/10003555.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注