Scrapy手动增加Add Cookie和关掉重复过滤器dupfilters

Scrapy 本身是能够处理Cookie的, 工作原理和浏览器类似

  1. 浏览器发送请求
  2. 服务器返回响应, 并使用Set-Cookie来要求浏览器再下一次的请求中, 带上Cookie
  3. 下一次请求, 浏览器在请求头中使用Cookie带上上一次服务器要求设置的Cookie

整个流程无需人工干预, 由浏览器自动完成.

在Scrapy中, 这个也是无需干预的, 其功能在CookieMiddleware中自动完成

使用的方法就是:

1. settings.py中打开开关

COOKIES_ENABLED=True
COOKIES_DEBUG=True #这个是在log中能看到每次请求发出了和接收到什么Cookie

2. 运行你的爬虫即可

那么, 问题来了, 怎么手动带上额外的Cookie呢?

翻了很多文档和源码, 特总结如下

  1. 带上Cookie, 一定是在Request上操作的, 所以, 不要去翻Response的源码了.
  2. Request有2个方法
    1) Request, FormRequest
    2) response.follow(…) #这个执行完了, 会返回一个Request对象

3. 为什么会要手动添加一个Cookie

答案就是现在的网页很多都用js来给document添加cookie
比如document.cookie=’person=zhouxingchi’;
这个在网页上, 由js添加的cookie, 再下一次请求的时候, 如果使用浏览器, 是可以带到下一个请求中的.

但是在scrapy里, 因为获取的是源码, 故js无法执行, 所以, 要求开发人员手动为下一个请求添加上该cookie.

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scrapy 中使用布隆过滤器中间件可以有效地过滤掉已经爬取过的重复URL,提高爬虫的效率。下面是一个简单的示例,展示了如何编写一个布隆过滤器中间件: ```python from scrapy.dupefilters import BaseDupeFilter from scrapy.utils.request import request_fingerprint from redis import Redis from redis_bloom_filter import BloomFilter class BloomFilterDupeFilter(BaseDupeFilter): def __init__(self, redis_host='localhost', redis_port=6379, redis_db=0, redis_key='bloomfilter'): self.redis_host = redis_host self.redis_port = redis_port self.redis_db = redis_db self.redis_key = redis_key @classmethod def from_settings(cls, settings): redis_host = settings.get('REDIS_HOST', 'localhost') redis_port = settings.get('REDIS_PORT', 6379) redis_db = settings.get('REDIS_DB', 0) redis_key = settings.get('BLOOMFILTER_KEY', 'bloomfilter') return cls(redis_host, redis_port, redis_db, redis_key) def open(self): self.redis = Redis(host=self.redis_host, port=self.redis_port, db=self.redis_db) self.bloomfilter = BloomFilter(redis=self.redis, key=self.redis_key) def close(self, reason=''): self.redis.close() def request_seen(self, request): fp = request_fingerprint(request) if self.bloomfilter.exists(fp): return True self.bloomfilter.add(fp) return False def clear(self): self.redis.delete(self.redis_key) ``` 在上述代码中,我们使用了 `redis-bloom-filter` 库来实现布隆过滤器。首先,我们创建了 `BloomFilterDupeFilter` 类,继承自 `BaseDupeFilter`。在 `__init__` 方法中,我们接收 Redis 的相关配置参数,如主机、端口、数据库和键名。 `from_settings` 方法可以从 Scrapy 的配置中获取 Redis 和布隆过滤器的相关配置,这样可以更方便地在 Scrapy 的配置文件中进行设置。 在 `open` 方法中,我们初始化 Redis 连接,并创建一个 Bloom Filter 对象。 `request_seen` 方法用于判断一个请求是否已经被处理过。我们使用请求的指纹(通过 `request_fingerprint` 方法计算)作为布隆过滤器的键,如果该键已经存在于布隆过滤器中,则表示该请求已经被处理过,返回 True;否则,将请求的指纹添加到布隆过滤器中,并返回 False。 `clear` 方法用于清空布隆过滤器中的所有数据。 最后,在 Scrapy 的配置文件中,你需要启用该中间件,并设置相应的参数: ```python DUPEFILTER_CLASS = 'your_scrapy_project.middlewares.BloomFilterDupeFilter' REDIS_HOST = 'localhost' REDIS_PORT = 6379 REDIS_DB = 0 BLOOMFILTER_KEY = 'bloomfilter' ``` 上述代码中的 `'your_scrapy_project.middlewares.BloomFilterDupeFilter'` 需要根据你的项目结构和文件位置进行修改。 这是一个简单的示例,你可以根据自己的需求对布隆过滤器中间件进行扩展和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值