scrapy管道

Scrapy管道

在上一小节中, 我们初步掌握了Scrapy的基本运行流程以及基本开发流程. 本节继续讨论关于Scrapy更多的内容.

一. 关于管道

上一节内容, 我们已经可以从spider中提取到数据. 然后通过引擎将数据传递给pipeline, 那么在pipeline中如何对数据进行保存呢? 我们主要针对四种数据存储展开讲解.

前三个案例以https://match.lottery.sina.com.cn/lotto/pc_zst/index?lottoType=ssq&actionType=chzs为案例基础. 最后一个以https://desk.zol.com.cn/dongman/为案例基础.

1. csv文件写入

​ 写入文件是一个非常简单的事情. 直接在pipeline中开启文件即可. 但这里要说明的是. 如果我们只在process_item中进行处理文件是不够优雅的. 总不能有一条数据就open一次吧

class CaipiaoFilePipeline:
    
    def process_item(self, item, spider):
        with open("caipiao.txt", mode="a", encoding='utf-8') as f:
            # 写入文件
            f.write(f"{
     item['qihao']}, {
     '_'.join(item['red_ball'])}, {
     '_'.join(item['blue_ball'])}\n")
        return item

​ 我们希望的是, 能不能打开一个文件, 然后就用这一个文件句柄来完成数据的保存. 答案是可以的. 我们可以在pipeline中创建两个方法, 一个是open_spider(), 另一个是close_spider(). 看名字也能明白其含义:

​ open_spider(), 在爬虫开始的时候执行一次
​ close_spider(), 在爬虫结束的时候执行一次

​ 有了这俩货, 我们就可以很简单的去处理这个问题

class CaipiaoFilePipeline:

    def open_spider(self, spider):
        self.f = open("caipiao.txt", mode="a", encoding='utf-8')

    def close_spider(self, spider):
        if self.f:
            self.f.close()

    def process_item(self, item, spider):
        # 写入文件
        self.f.write(f"{
     item['qihao']}, {
     '_'.join(item['red_ball'])}, {
     '_'.join(item['blue_ball'])}\n")
        return item

​ 在爬虫开始的时候打开一个文件, 在爬虫结束的时候关闭这个文件. 满分~

​ 对了, 别忘了设置settings

ITEM_PIPELINES = {
   
   'caipiao.pipelines.CaipiaoFilePipeline': 300
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Scrapy管道(Pipeline)是用于处理爬取的数据的组件,它可以对爬取到的数据进行处理、清洗、存储等操作。下面是一个简单的示例,展示如何封装Scrapy管道。 首先,你可以创建一个自定义的管道类,该类需要继承自`scrapy.pipelines.Pipeline`。在该类中,你可以实现一些方法来处理数据。 ```python # mypipeline.py from itemadapter import ItemAdapter class MyPipeline: def process_item(self, item, spider): # 对爬取到的数据进行处理 adapter = ItemAdapter(item) # 进行清洗、转换等操作 cleaned_data = self.clean_data(adapter) # 存储数据或者进行其他操作 self.save_data(cleaned_data) return item def clean_data(self, item): # 清洗数据的逻辑 cleaned_data = ... return cleaned_data def save_data(self, data): # 存储数据的逻辑 ... ``` 然后,在你的Scrapy项目的配置文件`settings.py`中,将该管道类添加到`ITEM_PIPELINES`中,并设置其优先级。 ```python # settings.py ITEM_PIPELINES = { 'yourproject.mypipeline.MyPipeline': 300, } ``` 在上述示例中,`MyPipeline`是自定义的管道类,其中的`process_item`方法会被Scrapy调用来处理每个爬取到的item。你可以在其中实现你自己的数据处理逻辑。 请注意,Scrapy会按照`ITEM_PIPELINES`中定义的顺序依次调用管道,因此你可以在`settings.py`中设置多个管道类,并按照优先级依次进行处理。 这就是一个简单的Scrapy管道封装的示例,你可以根据自己的需求进行扩展和定制化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值