scrapy 自己定制去重规则

最新推荐文章于 2022-09-07 18:20:02 发布

SHAN_9W

最新推荐文章于 2022-09-07 18:20:02 发布

阅读量1k

点赞数

分类专栏：爬虫文章标签： scrapy

本文链接：https://blog.csdn.net/u014248032/article/details/89160865

版权

本文介绍了如何在Scrapy中自定义去重规则，通过创建`XdbDupeFilter`类并重写请求检查方法，实现根据URL指纹判断是否重复。在配置中设置自定义的去重过滤器，并在爬虫中应用，从而控制请求的过滤。

摘要由CSDN通过智能技术生成

去重规则
默认的去重规则就是先建立一个集合,然后每次请求前先到这个集合中看是否有这个请求的url,没有则发送请求.ulr会被request_fingerprint函数转换成固定长度的字符串,这个字符串是唯一的,方便存储到数据库中.

       a. 编写类
           from scrapy.dupefilter import BaseDupeFilter
           from scrapy.utils.request import request_fingerprint

class XdbDupeFilter(BaseDupeFilter):

def __init__(self):
self.visited_fd = set()##建立机核

               @classmethod
               def from_settings(cls, settings):
                   return cls()

               def request_seen(self, request):
                   fd = request_fingerprint(request=request)
                   if fd in self.visited_fd:#在集合中说明请求过此url
                       return True
                   self.visited_fd.add(fd)#没有则说明没有请求过

def open(self): # can return deferred
print(&#

最低0.47元/天解锁文章

SHAN_9W

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy 自己定制去重规则

去重规则默认的去重规则就是先建立一个集合,然后每次请求前先到这个集合中看是否有这个请求的url,没有则发送请求.ulr会被request_fingerprint函数转换成固定长度的字符串,这个字符串是唯一的,方便存储到数据库中. a. 编写类 from scrapy.dupefilter import BaseDupeF...
复制链接

扫一扫