scrapy中通过set()方法进行数据过滤去重

最新推荐文章于 2019-11-03 20:01:45 发布

weixin_30410119

最新推荐文章于 2019-11-03 20:01:45 发布

阅读量206

点赞数

文章标签： python 爬虫数据库

原文链接：http://www.cnblogs.com/lvye001/p/9838714.html

版权

我们经常在抓取数据是碰到数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，

来来我们直接上代码：

pipelines.py中:

from scrapy.exceptions import DropItem  #导入异常处理模块


class Baidu03Pipeline(object):
    def __init__(self):          　　#建立构造方法
        self.title = set()       　　#定义集合
    def process_item(self, item, spider):
        title = item['title']    　　#取出要进行判断数据是否重复的字段
        if title in self.title:  　　#如果存在集合中则直接删除该项，
            raise DropItem('{}已存在'.format(title))  
        self.title.add(title)       #如果数据不重复，则加入集合
        ......                      #插库数据 写在这里即可。。。
return item

转载于:https://www.cnblogs.com/lvye001/p/9838714.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30410119

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy中通过set()方法进行数据过滤去重

我们经常在抓取数据是碰到数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，来来我们直接上代码：pipelines.py中:from scrapy.exceptions import DropItem #导入异常处理模块class Baidu03Pipeline(object): def __init__(self): ...
复制链接

扫一扫