【Python_Scrapy学习笔记（五）】Scrapy框架之管道文件pipelines.py详解

最新推荐文章于 2024-03-16 22:00:40 发布

禾戊之昂

最新推荐文章于 2024-03-16 22:00:40 发布

阅读量1k

点赞数 1

分类专栏： Python学习笔记 # Scrapy学习笔记文章标签： python scrapy 网络爬虫爬虫

本文链接：https://blog.csdn.net/sallyyellow/article/details/130195643

版权

Python学习笔记同时被 2 个专栏收录

119 篇文章 33 订阅

订阅专栏

Scrapy学习笔记

14 篇文章 1 订阅

订阅专栏

Scrapy框架之管道文件pipelines.py详解

前言

pipelines.py 文件是 Scrapy 框架下，用于接收网络爬虫传过来的数据，以便做进一步处理的文件。例如验证实体的有效性、清除不需要的信息、存入数据库（持久化实体）、存入文本文件等。本文中介绍 pipelines.py 文件的基本使用方法。

正文

1、pipelines介绍

管道文件 pipelines.py 主要用来对抓取的数据进行处理：一般一个类即为一个管道，比如创建存入MySQL、MangoDB 的管道类。
管道文件中 process_item() 方法即为处理所抓数据的具体方法。

2、pipelines常用方法

process_item(self,item,spider)：处理爬虫抓取的具体数据，在 process_item() 函数中必须要 return item，因为存在多管道时，会把此函数的返回值继续交由下一个管道继续处理；
open_spider()：爬虫项目启动时只执行一次，一般用于数据库连接；
close_spider()：爬虫项目结束时只执行一次，一般用于收尾工作，如数据库的关闭。

以把数据存入 Mysql 数据库为例：

import pymysql
from .settings import *

# 管道2：把数据存入Mysql数据库
# 提前建库建表
# create database cardb charset utf8;
# use cardb;
# create table cattab(
# name varchar(200),
# price varchar(100),
# link varchar(300)
# )charset=utf8;
class CarMysqlPipeline(object):
    def __init__(self):
        self.db = None  # 初始化表
        self.cur = None  # 初始化游标对象

    def open_spider(self, spider):
        """
        爬虫程序开始时，只执行一次，一般用于数据库的连接
        :param spider:
        :return:
        """
        self.db = pymysql.connect(host=MYSQL_HOST, user=MYSQL_USER, password=MYSQL_PWD, database=MYSQL_DB,
                                  charset=CHARSET)  # 数据库连接
        self.cur = self.db.cursor()  # 创建游标对象

    def process_item(self, item, spider):
        ins = 'insert into cartab values(%s,%s,%s)'  # 写sql语句
        li = [
            item["name"].strip(),
            item["price"].strip(),
            item["link"].strip()
        ]
        self.cur.execute(ins, li)
        self.db.commit()  # 提交到数据库执行
        # 只做插入数据操作
        return item

    def close_spider(self, spider):
        """
        爬虫程序结束时，只执行一次，一般用于数据库的断开
        :param spider:
        :return:
        """
        self.cur.close()  # 关闭游标
        self.db.close()  # 关闭表

3、开启pipelines

在 settings.py 设置开启 pipelines

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# 开启管道
ITEM_PIPELINES = {
    # 项目目录名.模块名.类名:优先级(1-1000不等)
    "CarSpider.pipelines.CarspiderPipeline": 300,
    # "CarSpider.pipelines.CarMysqlPipeline": 400
}

禾戊之昂

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python_Scrapy学习笔记（五）】Scrapy框架之管道文件pipelines.py详解

pipelines.py 文件是 Scrapy 框架下，用于接收网络爬虫传过来的数据，以便做进一步处理的文件。例如验证实体的有效性、清除不需要的信息、存入数据库（持久化实体）、存入文本文件等。本文中介绍 pipelines.py 文件的基本使用方法。
复制链接

扫一扫