scrapy中pipeline组件常见作用，数据的清洗和入库

最新推荐文章于 2024-07-02 02:21:03 发布

辉辉咯

最新推荐文章于 2024-07-02 02:21:03 发布

阅读量8.6k

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/qq_41020281/article/details/79459604

版权

在scrapy的Item pipeline组件中有两个典型的作用，一个是查重并丢弃，第二个是将爬取的数据保存到文件或者数据库中。

以下为用scrapy爬取的豆瓣图书信息，数据清晰和去重都可以在Item Pipeline中完成

class DoubanBooksPipeline(object):
    def process_item(self, item, spider):
        author = item['author']
        if author:
            item['author'] = author.strip().replace('\n','').replace(' ','')
        series = item['series']
        if series:
            item['series'] = series.replace('\xa0','')
        content = item['content']
        if content:
            item['content'] = content.replace('\n','').replace(' ','')
        about_author = item['about_author']
        if about_author:
            item['about_author'] = about_author.replace('\n','').replace(' ','')
        pub

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

辉辉咯

关注关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
scrapy中pipeline组件常见作用，数据的清洗和入库

在scrapy的Item pipeline组件中有两个典型的作用，一个是查重并丢弃，第二个是将爬取的数据保存到文件或者数据库中。以下为用scrapy爬取的豆瓣图书信息，数据清晰和去重都可以在Item Pipeline中完成class DoubanBooksPipeline(object): def process_item(self, item, spider): ...
复制链接

扫一扫