scrapy管道

soutwy

于 2023-11-14 23:59:45 发布

阅读量58

点赞数

文章标签： scrapy

本文链接：https://blog.csdn.net/soutwy/article/details/134410626

版权

Scrapy管道

在上一小节中, 我们初步掌握了Scrapy的基本运行流程以及基本开发流程. 本节继续讨论关于Scrapy更多的内容.

一. 关于管道

上一节内容, 我们已经可以从spider中提取到数据. 然后通过引擎将数据传递给pipeline, 那么在pipeline中如何对数据进行保存呢? 我们主要针对四种数据存储展开讲解.

前三个案例以https://match.lottery.sina.com.cn/lotto/pc_zst/index?lottoType=ssq&actionType=chzs为案例基础. 最后一个以https://desk.zol.com.cn/dongman/为案例基础.

1. csv文件写入

写入文件是一个非常简单的事情. 直接在pipeline中开启文件即可. 但这里要说明的是. 如果我们只在process_item中进行处理文件是不够优雅的. 总不能有一条数据就open一次吧

class CaipiaoFilePipeline:
    
    def process_item(self, item, spider):
        with open("caipiao.txt", mode="a", encoding='utf-8') as f:
            # 写入文件
            f.write(f"{
     item['qihao']}, {
     '_'.join(item['red_ball'])}, {
     '_'.join(item['blue_ball'])}\n")
        return item

我们希望的是, 能不能打开一个文件, 然后就用这一个文件句柄来完成数据的保存. 答案是可以的. 我们可以在pipeline中创建两个方法, 一个是open_spider(), 另一个是close_spider(). 看名字也能明白其含义:

open_spider(), 在爬虫开始的时候执行一次
close_spider(), 在爬虫结束的时候执行一次

有了这俩货, 我们就可以很简单的去处理这个问题

class CaipiaoFilePipeline:

    def open_spider(self, spider):
        self.f = open("caipiao.txt", mode="a", encoding='utf-8')

    def close_spider(self, spider):
        if self.f:
            self.f.close()

    def process_item(self, item, spider):
        # 写入文件
        self.f.write(f"{
     item['qihao']}, {
     '_'.join(item['red_ball'])}, {
     '_'.join(item['blue_ball'])}\n")
        return item

在爬虫开始的时候打开一个文件, 在爬虫结束的时候关闭这个文件. 满分~

对了, 别忘了设置settings

ITEM_PIPELINES = {
   
   'caipiao.pipelines.CaipiaoFilePipeline': 300

最低0.47元/天解锁文章

soutwy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
scrapy管道

管道
复制链接

扫一扫

scrapy管道

Scrapy管道

一. 关于管道

1. csv文件写入

“相关推荐”对你有帮助么？