爬虫框架scrapy--3pipelines通道的使用

最新推荐文章于 2023-07-03 16:19:30 发布

梦森(:

最新推荐文章于 2023-07-03 16:19:30 发布

阅读量192

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/mengsenzhimeng/article/details/120431990

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在pipelines通道中可以对不同来源的数据进行处理和保存，方法如下：

1、在settings中找到如下代码段并进行修改

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
#取消下面注释开启PIPELIN通道，
#ITEM_PIPELINES = {
#数字300代表优先级，数字越小越先调用
#    'myFistScrapy.pipelines.MyfistscrapyPipeline': 300,
#可以自定义修改MyfistscrapyPipeline类，实现对不同网站的处理,注意类的函数名不能改
#    'myFistScrapy.pipelines.MyfistscrapyPipeline_my': 200,
#}

2、修改 pipelines.py

class MyfistscrapyPipeline:
    def process_item(self, item, spider):
        '''
        使用spider.name属性判断来源于那个爬虫，以便于对不同爬虫进行不同处理

         if spider.name == 'baidu(项目名）'

        '''
        return item



'''
------自定义修改类名-------
class MyfistscrapyPipeline_my:#类名要与settings.py文件中相对应
    def process_item(self, item, spider):#类名可以改，函数名不能改
        if spider.name == 'baidu(项目名'：
            #进行数据处理和保存
            pass
        return item  #返回值不能省略,负责后续处理函数收不到数据
  
  
'''

梦森(:

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫框架scrapy--3pipelines通道的使用

在pipelines通道中可以对不同来源的数据进行处理和保存，方法如下：1、在settings中找到如下代码段并进行修改# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html#取消下面注释开启PIPELIN通道，#ITEM_PIPELINES = {#数字300代表优先级，数字越小越先调用# 'myFistScrapy.pipelines.Myfist
复制链接

扫一扫