第五章使用Item Pipeline处理数据

最新推荐文章于 2022-11-25 21:45:12 发布

三丁目の夕阳下的白菜

最新推荐文章于 2022-11-25 21:45:12 发布

阅读量2.2k

点赞数

文章标签： scrapy 爬虫 python

本文链接：https://blog.csdn.net/keenshinsword/article/details/79086552

版权

Scrapy的Item Pipeline用于处理爬取的数据，包括清洗、验证、去除重复和存储到数据库等。每个Pipeline实现process_item方法，返回处理后的数据或丢弃无效数据。启用Pipeline需要在settings.py中配置，并通过数字决定处理顺序。示例中展示了如何过滤重复数据和将数据存入MongoDB。

摘要由CSDN通过智能技术生成

在Scrapy中,Item Pipeline 是处理数据的组件,通常只负责一种功能的数据处理,在一个项目中可以同时启用多个Item Pipeline,它们按指定次序级联起来,形成一条数据处理流水线.

Item Pipeline的几种典型应用:
- 清洗数据
- 验证数据的有效性
- 过滤掉重复的数据
- 将数据存入数据库

1. Item Pipeline

在之前的example项目中,我们爬取到的书籍价格是以英镑为单位的,如果我们希望爬取到的书价是人民币价格呢?
就需要根据汇率算出人民币价格,此时可以实现一个价格转换的Item Pipeline来完成这个工作

1. 实现Item Pipeline

在创建项目时,会自动生成一个pipelines.py文件,用来放置用户自定义的Item Pipeline

class PriceConverterPipeline(object):
    # 英镑兑换人民币汇率
    exchange_rate = 8.5309

    def process_item(self, item, spider):

最低0.47元/天解锁文章

三丁目の夕阳下的白菜

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第五章使用Item Pipeline处理数据

在Scrapy中,Item Pipeline 是处理数据的组件,通常只负责一种功能的数据处理,在一个项目中可以同时启用多个Item Pipeline,它们按指定次序级联起来,形成一条数据处理流水线.Item Pipeline的几种典型应用: - 清洗数据 - 验证数据的有效性 - 过滤掉重复的数据 - 将数据存入数据库1. Item Pipeline在之前的example项
复制链接

扫一扫