scrapy使用pipeline保存不同的表单Item到数据库、本地文件

步骤1:构造Item

import scrapy


class StockItem(scrapy.Item):
    stock_code = scrapy.Field()
    company_name = scrapy.Field()
    stock_type = scrapy.Field()


class CompanyInfoItem(scrapy.Item):
    name = scrapy.Field()
    company_name = scrapy.Field()

步骤2:构造Pipeline

from .items import StockItem, CompanyInfoItem
import pymysql


class MyPipeline(object):
    def __init__(self): # 这里可以定义数据库的一些配置
        host = "127.0.0.1"
        user = "testuser"
        password = "testpassword"
        db = "test_db"

        self.conn = pymysql.connect(host=host, user=user, password=password, database=db)
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
        if isinstance(item, StockItem):
            print("StockItem") # StockItem的处理逻辑
        elif isinstance(item, CompanyInfoItem):
            print('CompanyInfoItem') # CompanyInfoItem的处理逻辑

如果是多个spider,这里的process_item也可以使用spider.name先作区分

除了:isinstance(item, StockItem),还可以使用:

item.__class__.__name__ == "StockItem"

步骤3:setting配置pipeline

ITEM_PIPELINES = {
    'company_finance.pipelines.MyPipeline': 300,
}
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
使用Scrapy爬虫将数据保存数据库的一般步骤如下: 1. 创建一个数据库(例如MySQL)和表来存储数据。 2. 在Scrapy项目中添加数据库驱动和连接设置。 3. 在Scrapy项目中定义Item对象以保存爬取的数据。 4. 在Scrapy项目中编写Pipeline以处理Item对象,将其保存数据库中。 下面是一个简单的示例,将Scrapy爬虫数据保存到MySQL数据库中: 1. 创建数据库和表 在MySQL中创建一个名为“mydatabase”的数据库,并创建一个名为“mytable”的表,该表包括以下列:id、title、author和content。 ``` CREATE DATABASE mydatabase; USE mydatabase; CREATE TABLE mytable ( id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255) NOT NULL, author VARCHAR(255) NOT NULL, content TEXT NOT NULL ); ``` 2. 添加数据库驱动和连接设置 在Scrapy项目中的settings.py文件中添加MySQL驱动和连接设置: ``` # settings.py ITEM_PIPELINES = { 'myproject.pipelines.MySQLPipeline': 300, } MYSQL_HOST = 'localhost' MYSQL_DBNAME = 'mydatabase' MYSQL_USER = 'root' MYSQL_PASSWORD = 'mypassword' ``` 3. 定义Item对象 在Scrapy项目中的items.py文件中定义Item对象: ``` # items.py import scrapy class MyItem(scrapy.Item): title = scrapy.Field() author = scrapy.Field() content = scrapy.Field() ``` 4. 编写PipelineScrapy项目中的pipelines.py文件中编写MySQLPipeline: ``` # pipelines.py import mysql.connector class MySQLPipeline(object): def __init__(self, host, dbname, user, password): self.host = host self.dbname = dbname self.user = user self.password = password @classmethod def from_crawler(cls, crawler): return cls( host=crawler.settings.get('MYSQL_HOST'), dbname=crawler.settings.get('MYSQL_DBNAME'), user=crawler.settings.get('MYSQL_USER'), password=crawler.settings.get('MYSQL_PASSWORD') ) def open_spider(self, spider): self.connection = mysql.connector.connect( host=self.host, dbname=self.dbname, user=self.user, password=self.password ) self.cursor = self.connection.cursor() def close_spider(self, spider): self.connection.commit() self.connection.close() def process_item(self, item, spider): self.cursor.execute('INSERT INTO mytable (title, author, content) VALUES (%s, %s, %s)', (item['title'], item['author'], item['content'])) return item ``` 在这个例子中,MySQLPipeline连接到MySQL数据库并将爬取的数据保存到“mytable”表中。 确保在Scrapy项目的主文件中启用MySQLPipeline: ``` # main.py from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from myproject.spiders.myspider import MySpider process = CrawlerProcess(get_project_settings()) process.crawl(MySpider) process.start() ``` 当您运行Scrapy爬虫时,数据将被爬取并保存到MySQL数据库中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆萌的代Ma

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值