scrapy CrawlSpider设置headers

最新推荐文章于 2024-05-31 10:56:49 发布

罗小爬EX

最新推荐文章于 2024-05-31 10:56:49 发布

阅读量634

点赞数

分类专栏： python # scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luo15242208310/article/details/112240255

版权

python 同时被 2 个专栏收录

19 篇文章

订阅专栏

9 篇文章

订阅专栏

参考：
CrawlSpider带headers和cookies请求，解决302重定向和禁止访问问题

通常在使用CrawlSpider时，可以指定rules，但却没有指定headers、cookies的地方，我们可以在start_requests通过scrapy.Request指定headers和cookies，但是之后CrawlSpider在根据rules爬取的link请求新页面时，是没有携带headers的（默认会记住并携带cookie），我这边遇到的情况就是初始请求通过start_requests设置headers后可以正常访问，但是根据初始请求页面中提取的link则无法访问，返回403 forbidden，解决此问题亦可通过重写_build_request来为每个request请求设置headers，
综上可结合如下两种方式：
（1）在start_requests方法中通过scrapy.Request指定初始请求的headers和cookies
（2）重写_build_request来为之后的每个request请求设置headers
示例代码如下：

    # 在start_requests通过scrapy.Request指定headers和cookies
    def start_requests(self):
        start_urls = self.rules_json.get("start_urls")
        for url in start_urls:
            # yield scrapy.Request(url=url, headers={"hello": "world"}, cookies={"user": "小明"})
            # 设置爬取URL及headers, cookies
            yield scrapy.Request(url=url, headers=self.default_request_headers, cookies=self.default_request_cookies)

	# 重写_build_request来为每个request请求设置headers
    def _build_request(self, rule_index, link):
        return scrapy.Request(
            url=link.url,
            # 重置headers
            headers=self.default_request_headers,
            callback=self._callback,
            errback=self._errback,
            meta=dict(rule=rule_index, link_text=link.text),
        )

博客等级

码龄13年

Java领域优质创作者

博客专家认证

289
原创

1296
点赞

3640
收藏

3万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

OpenTelemetry系列 - 第3篇 OpenTelemetry Collector
大佬轻喷: 4.2 导出到Jaeger 最新版本的OTel Collector已经不支持Jaeger导出器（Stackoverflow/#77475771），想要通过Collector导出数据到Jaeger则需借助otlp导出器。目前最新版本的Jaeger已经内嵌OTLP Collector，暴露的端口也同为4317（gRPC），4318（HTTP）。 ———————————————— 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/luo15242208310/article/details/134510880这个说的很正确我启动otel的时候说端口被占用了
CAT心跳报表调整
weixin_38042286: 你好，如何让某一个项目使用调整后的指标,原来的项目还是原来的指标
升级H2数据库2.x版本遇见的问题
橙蕾姆斯基: springboot项目直接升级版本会冲突吗，之前自动适配的是1.4.196
使用SpringCloud Gateway遇到的一些问题
yeyein9: 根本没有这个属性 add-to-simple-url-handler-mapping
SpringBoot应用生成RESTful API文档 - Swagger 2.0、OAS 3.0、Springfox、Springdoc、Smart-doc
就是爱吃肉ro: 我也遇到了threapi包与lombok冲突, 需要配置一下: <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <configuration> <annotationProcessorPaths> <path> <groupId>com.github.therapi</groupId> <artifactId>therapi-runtime-javadoc-scribe</artifactId> <version>0.15.0</version> </path> <path> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.18.32</version> </path> </annotationProcessorPaths> </configuration> </plugin> </plugins> </build>

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

罗小爬EX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。