scrapy的去重机制

最新推荐文章于 2024-04-27 18:08:49 发布

爬虫炫神

最新推荐文章于 2024-04-27 18:08:49 发布

阅读量862

点赞数

分类专栏： scrapy框架

本文链接：https://blog.csdn.net/weixin_42170439/article/details/90545163

版权

scrapy框架专栏收录该内容

7 篇文章 1 订阅

订阅专栏

scrapy的去重机制

1、scrapy是通过hashlib算法转成长度一致的url，然后再通过set集合去重的，有兴趣看源码

from scrapy.utils.request import request_fingerprint

def request_fingerprint(request, include_headers=None):

fp = hashlib.sha1() # 指纹是hashlib表示来生成一个固定长度的哈兮值

fp.update(to_bytes(request.method))

fp.update(to_bytes(canonicalize_url(request.url)))

fp.update(request.body or b'')

2、在scrapy框架中去重的中间件文件 dupefilters.py文件：

# 封装去重类
class RFPDupeFilter(BaseDupeFilter):
    """Request Fingerprint duplicates filter"""

    def __init__(self, path=None, debug=False):
        self.file = None
        self.fingerprints = set() # 去重器
        self.logdupes = True #log日志
        self.debug = debug #调试
        self.logger = logging.getLogger(__name__)
   
   #有个函数叫 request_seen() 
   def request_seen(self, request):
       fp = self.request_fingerprint(request)
       if fp in self.fingerprints:
            return True
       self.fingerprints.add(fp)
       if self.file:
            self.file.write(fp + os.linesep)

# 被scrapy/core/scheduler.py调用这个是调度器
class Scheduler(object):
    # enqueue_request()的函数：spider的每来一个url就是通过这个函数来执行的
    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            self.df.log(request, self.spider)
            return False

每次执行之前都会调用到 request_seen(request) 这个方法

这个方法就会生成一个指纹，指纹下面的掉用的就比较复杂了，简单的说就是要去执行 hashlib.sha1() 这个算法来生成一个固定长度的哈兮值

再然后就是在那个去重器中的

self.fingerprints = set()

就是通过上句代码执行了set集合来去重了

爬虫炫神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy的去重机制

scrapy的去重机制1、scrapy是通过hashlib算法转成长度一致的url，然后再通过set集合去重的，有兴趣看源码from scrapy.utils.request import request_fingerprintdef request_fingerprint(request, include_headers=None): fp = hash...
复制链接

扫一扫