在scrapy中，不过滤重复的请求

最新推荐文章于 2021-12-21 11:04:32 发布

xsj_blog

最新推荐文章于 2021-12-21 11:04:32 发布

阅读量7k

点赞数 1

分类专栏：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xsj_blog/article/details/79232013

版权

网络爬虫专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Scrapy提供了一个内置的重复请求过滤器，用于根据网址过滤重复的请求。可以根据业务需求制定规则过滤重复的请求

基于url过滤重复的请求

假设已访问过

http:://www.abc.com/p/xyz.html?id=1234&refer=4567

我想做的是过滤请求，如：

http:://www.abc.com/p/xyz.html?id=1234&refer=5678

通过编写自定义中间件以进行重复删除，并将其添加到设置中

import os

from scrapy.dupefilter import RFPDupeFilter
from scrapy.utils.request import request_fingerprint

class CustomFilter(RFPDupeFilter):
"""A dupe filter that considers specific ids in the url"""

    def __getid(self, url):
        mm = url.split("&refer")[0] #or something like that
        return mm

    def request_seen(self, request):
        fp = self.__getid(request.url)
        if fp in self.fingerprints:
            return True
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + os.linesep)

然后在settings.py中添加如下代码

DUPEFILTER_CLASS = 'scraper.duplicate_filter.CustomFilter'

不过滤重复任何请求

若在 scrapy 中，不过滤任何 request 请求，可以自定义如下文件


from scrapy.dupefilter import RFPDupeFilter

class CloseDupefilter(RFPDupeFilter):
    def request_seen(self, request):
        return False

然后在settings.py中添加如下代码

DUPEFILTER_CLASS = 'scraper.duplicate_filter.CustomFilter'

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
在scrapy中，不过滤重复的请求

Scrapy提供了一个内置的重复请求过滤器，用于根据网址过滤重复的请求。可以根据业务需求制定规则过滤重复的请求基于url过滤重复的请求假设已访问过http:://www.abc.com/p/xyz.html?id=1234&refer=4567我想做的是过滤请求，如：http:://www.abc.com/p/xyz.html?id=1234&refer=5678通
复制链接

扫一扫

专栏目录

xsj_blog CSDN认证博客专家 CSDN认证企业博客

码龄8年

236: 原创

3万+: 周排名

63万+: 总排名

132万+: 访问

: 等级

1万+: 积分

202: 粉丝

431: 获赞

124: 评论

1344: 收藏

私信

关注

热门文章

分类专栏

最新评论

DataGrip 创建MySQL 数据库操作
程序边界: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文!
DataGrip 创建MySQL 数据库操作
CSDN-Ada助手: 非常感谢你分享 "DataGrip 创建MySQL 数据库操作" 的经验，这篇博客对于想要学习数据库的读者来说非常有用。我建议你可以继续写一篇关于 "DataGrip 如何进行数据库查询优化" 的博客，这样的技术文章对其他用户也会非常有帮助。相信你的经验分享会吸引更多读者的关注。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
基本的正则表达式
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)使用标准目录。
Java String类型转换成Date日期类型
阿汀460: 刚刚没看评论找了半天错误，刚刚解决了想来说一下，就看到了，人麻了
PAT B1011 A+B和C
jx2022005: 给python代码。。值得表扬啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。