scrapy使用pipeline保存不同的表单Item到数据库、本地文件

最新推荐文章于 2023-02-25 18:19:09 发布

呆萌的代Ma

最新推荐文章于 2023-02-25 18:19:09 发布

阅读量558

点赞数 1

分类专栏：爬虫文章标签： big data python scrapy

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/120377506

版权

爬虫专栏收录该内容

51 篇文章 3 订阅

订阅专栏

步骤1：构造Item

import scrapy


class StockItem(scrapy.Item):
    stock_code = scrapy.Field()
    company_name = scrapy.Field()
    stock_type = scrapy.Field()


class CompanyInfoItem(scrapy.Item):
    name = scrapy.Field()
    company_name = scrapy.Field()

步骤2：构造Pipeline

from .items import StockItem, CompanyInfoItem
import pymysql


class MyPipeline(object):
    def __init__(self): # 这里可以定义数据库的一些配置
        host = "127.0.0.1"
        user = "testuser"
        password = "testpassword"
        db = "test_db"

        self.conn = pymysql.connect(host=host, user=user, password=password, database=db)
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
        if isinstance(item, StockItem):
            print("StockItem") # StockItem的处理逻辑
        elif isinstance(item, CompanyInfoItem):
            print('CompanyInfoItem') # CompanyInfoItem的处理逻辑

如果是多个spider，这里的process_item也可以使用spider.name先作区分

除了：isinstance(item, StockItem)，还可以使用：

item.__class__.__name__ == "StockItem"

步骤3：setting配置pipeline

ITEM_PIPELINES = {
    'company_finance.pipelines.MyPipeline': 300,
}

呆萌的代Ma

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy使用pipeline保存不同的表单Item到数据库、本地文件

文章目录步骤1：构造Item步骤2：构造Pipeline步骤3：setting配置pipeline步骤1：构造Itemimport scrapyclass StockItem(scrapy.Item): stock_code = scrapy.Field() company_name = scrapy.Field() stock_type = scrapy.Field()class CompanyInfoItem(scrapy.Item): name = sc
复制链接

扫一扫