Python爬虫(入门+进阶)学习笔记 3-2 爬虫工程师进阶(八):去重与入库

数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。数据去重可以有效避免资源的浪费,所以数据去重至关重要。

数据去重


数据去重可以从两个节点入手:一个是URL去重。即直接筛选掉重复的URL;另一个是数据库去重。即利用数据库的一些特性筛选重复的数据。

 def process_spider_output(self, response, result, spider):
    for r in result:  
        if isinstance(r, Request):    #对结果进行分析,如果是url,继续下一步,否则跳过
            key = self._get_key(r)    #通过_get_key函数生成key
            if key in self.db:        #查看key是否在数据库中
                logger.info("Ignoring already visited: %s" % r)   #如果在数据库,就抛弃
                if self.stats:
                    self.stats.inc_value('deltafetch/skipped', spider=spider)
                continue
        elif isinstance(r, (BaseItem, dict)):   #对结果分析,如果是dict or item ,继续下一步
            key = self._get_key(response.request)   
            self.db[key] = str(time.time())     #对url进行持久化操作
            if self.stats:
                self.stats.inc_value('deltafetch/stored', spider=spider)
        yield r
 def _get_key(self, request):
        #key值的生成,要么是request.meta传过来,要么使用指纹算法生成
        key = request.meta.get('deltafetch_key') or request_fingerprint(request)

        return to_bytes(key)   

URL去重
为什么需要进行URL去重?
  1. 在爬虫启动工作的过程中,我们不希望同一个网页被多次下载,因为重复下载不仅会浪费CPU机时,还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题,就要考虑下载所依据的超链接,只要能够控制待下载的URL不重复,基本可以解决同一个网页重复下载的问题。
  2. 对于已经抓取过的链接,进行持久化,并且在启动的时候加载进入去重队列,是一个比较强的需求。 
    它主要应对爬虫故障重跑,不需要重跑所有链接
如何确定去重强度?

根据爬取周期确定使用去重强度 
抓取周期在一个小时内,不需要对已经抓取的链接做持久化 
抓取周期在一天内(或抓取的数据总量30w以下),需要对抓取链接做一个相对简单的持久化 
抓取周期在一天以上,需要对抓取链接做相对专业的持久化

URL去重方法:两种解决方法
  • 已经造好的轮子系列:

    • scrapy-deltafetch
    • scrapy-crawl-once
    • scrapy-redis
    • scrapy-redis-bloomfilter
  • 自己造轮子:

    • 自己写的init_add_request方法 
      可以轻量实现
已经造好的轮子:scrapy-deltafetch

scrapy-de

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值