爬虫学习——Item封装数据与Item Pipeline处理数据

最新推荐文章于 2025-04-24 18:34:45 发布

代码的建筑师

最新推荐文章于 2025-04-24 18:34:45 发布

阅读量624

点赞数 12

分类专栏：学习记录 python 文章标签：学习爬虫学习记录 Item Item pipeline

本文链接：https://blog.csdn.net/qq_64296768/article/details/147394577

版权

学习记录同时被 2 个专栏收录

98 篇文章

订阅专栏

python

56 篇文章

订阅专栏

一、Item封装数据

对于有字段的数据，最好的数据结构维护方法为字典类型(dict)，但是由于字典不便于携带元数据和传递给其他组件使用，故可以使用Item类封装爬取到的数据。

这里涉及两个类：Item基类和Field类

两者的使用关系如下：首先创建一个自定义的Item类，命名为BestItem()该类继承于Item类，然后使用Field()来对各字段进行创建对象，即cost=Field()

即总的使用格式为：
From scrapy import Item,Field

Class BestItem():

    Cost=Field()

    Information=Field()
然后将创建好的BestItem导入创建爬虫类的文件中进行使用，并对其进行专门的解析和提取。类和类之间可以互相进行继承，实现功能字段的拓展：class VeryBestItem(BestItem)

二、Item Pipeline处理数据

一个Item Pipeline只负责一种功能的数据处理，但是可以使用多个，实现对多个功能的处理。类似流水线处理一样。如果在某一个Item Pipeline处理时抛出异常，那么这个数据将不再传递给后面的Item Pipeline进行处理，也不会导出到文件中，而是直接被抛弃。

Item Pipeline处理的场景为：清洗数据、验证数据的有效性、数据去重、将数据写入特定的文件或数据库、数据增强、数据聚合、数据脱敏/加密、数据单位换算、依赖外部API补充数据和错误恢复和机器学习模型等。

对该方法的使用很简单：只需要专注于实现某一功能，而不需要在意是否需要继承特定基类。

其在实际应用中必须实现的方法：
①open_spider(self,spider)用于在开始处理数据之前完成某些初始化的工作，比如连接数据库

②close_spider(self,spider)用于在处理完所有数据之后完成某些清理工作，比如关闭数据库连接。

③from_crawler(cls,crawler)用于根据crawler.settings读取配置创建Item Pipeline对象。

④process_item(self ,item,spider)用于对数据进行处理。

如何想使用Item Pipeline这个组件(可选),需要在配置文件settings.py中进行配置。其配置为：ITEM_PIPELINES={“每一个Item Pipeline类的导入路径，值为0~1000的数字，该数字的大小决定了Item Pipeline处理数据的先后次序，数字小的在前”}

重点：将爬取的数据可以直接存入数据库MongoDB，使用Item Pipeline就可以完成这个任务。在使用MongoDB时，需要导入import pymongo

整体实现流程：
From scrapy.item import Item
Import pymongo
Class MongoDBpipeline(object):
    db_url=”mongodb://localhost:8888/” //数据库的url地址
    db_name=”data_db”//数据库名

    Def  open_spider(self,spider)://连接数据库
        Self.client=pymongo.MongoClient(self.db_url)
        Self.db=self.client[self.db_name]

    Def  close_spider(self,spider)://关闭数据库连接
        Self.client.close()

    Def  process_item(self,item,spider)://进行数据处理
        Collection=self.db[spider.name]
        Post=dict(item) if isinstance(item,Item) else item
        Collection.insert_one(post)//insert_one传入的必须为一个字典对象，不能是Item对象，故在此之前对其进行类型判断
        Return item
------------------------------------------------------------------
更改配置文件settings.py：ITEM_PIPELINES={
	“MongoDBPipeline的路径”：300
}
MongoDB_url=”mongodb://localhost:8888/”
Mongo_DB_name=”data_db”
--------------------------------------------------------------
更改另外一个配置文件crawler.settings：
Def  from_crawler(cls,crawler):
    Cls.db_url=crawler.settings.get(“MongoDB_url”,”mongodb://localhost:8888/”)
    Cls.db_name=crawler.settings.get(“Mongo_DB_name”,”data_db”)
    Return cls()