requests正常scrapy异常---终极解决方案

数据爬虫

已于 2022-10-20 23:21:15 修改

阅读量885

点赞数

分类专栏：自动化工具爬虫文章标签： scrapy python 开发语言

于 2022-10-20 23:08:59 首次发布

本文链接：https://blog.csdn.net/weixin_42156283/article/details/127436912

版权

自动化工具爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

fiddler抓包进行对比

1、请求url：

requests会自动编码，scrapy不会自动编码，比如url中存在 “|”

2、headers：

scrapy默认有一些自定义的头部：Accept, Accept-Language

DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}

3、cookie传递

requests默认cookie不传递
scrapy默认cookie传递（COOKIES_ENABLED默认为true，相当于session模块），

4、cookie构造方式：

scrapy中cookie不能写到headers里，要单独写cookies=cookies_dict（新手最常见的错误）

5、post请求参数构造：

常见的几种post请求构造方法

最终对比数据包完全一致，即可成功

附：
requests加代理：
proxies = {‘http’: ‘http://localhost:8888’, ‘https’:‘http://localhost:8888’}

scrapy加代理：
meta={‘proxy’: “http://localhost:8888”}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

数据爬虫

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
requests正常scrapy异常---终极解决方案

requests正常，scrapy异常
复制链接

扫一扫

专栏目录

requests 可以 scrapy 不行_scrapy下载中间件(downloader middleware)和蜘蛛中间件(spider middleware)...

weixin_39881958的博客

11-28

222

scrapy组件首先我们看下scrapy官网提供的新结构图，乍一看这画的是啥啊，这需要你慢慢的理解其原理就很容易看懂了，这些都是一个通用爬虫框架该具有的一些基本组件。上一篇博客说了项目管道(也就是图中的ITEM PIPELINES)，可以看到中间的引擎(ENGINE)将item传递给了项目管道，也就是让项目管道来处理抓取到的内容。另外图中的所谓的组件只是抽象出来的东西比较容易让人理解，其...

scrapy-redis源码分析之发送POST请求详解

09-09

为了解决Scrapy-Redis中发送POST请求的问题，我们需要自定义中间件（Middleware）或者在`RedisSpider`的`parse`方法中处理POST请求。一种可能的方法是创建一个新的中间件，该中间件在接收到特定的请求类型（例如，...

1 条评论您还未登录，请先登录后发表或查看评论

Requests可以请求Scrapy却却不行返回404

redis数据库安装及启用

10-23

1186

Requests可以请求Scrapy却却不行返回404

Scrapy 设置 User-Agent 无效

我的博客

01-26

2103

问题使用 Scrapy 的过程当中 ,我想要实现一个功能 : 每个请求使用随机的 User-Agent 。错误方案习惯性的随手 Google , 找了篇博客 , copy 了方案 , 发现设置的 User-Agent 无效。代码如下 : class CustomerUserAgent(UserAgentMiddleware): def process_request(self,...

requests请求成功但scrapy请求失败403的原因

weixin_45067285的博客

08-09

1604

requests库爬虫请求成功，但改写为scrapy时出现forbidden403错误请求失败的原因

在request可以但scrapy就报407异常

weixin_35755434的博客

01-17

173

这可能是由于网站使用了代理服务器导致的。在使用 Scrapy 时，您需要在 settings.py 文件中设置代理，并使用带有用户名和密码的格式，例如："http://user:pass@proxy.server:port"。如果您还是遇到问题，建议检查您的代理设置是否正确，并确保您有足够的权限访问该网站。 ...

python scrapy和requests区别_python,_为什么用requests库能爬取而用scrapy却不能?，python - phpStudy...

weixin_39588223的博客

12-08

391

为什么用requests库能爬取而用scrapy却不能?# -*- coding: utf-8 -*-import requestsdef xici_request():url = 'http://www.xicidaili.com'headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/w...

requests 可以 scrapy 不行_浅析scrapy与scrapy_redis区别

weixin_39663602的博客

12-19

225

近在工作中写了很多 scrapy_redis 分布式爬虫，但是回想 scrapy 与 scrapy_redis 两者区别的时候，竟然，思维只是局限在了应用方面，于是乎，搜索了很多相关文章介绍，这才搞懂内部实现的原理。首先我们从整体上来讲scrapy是一个Python爬虫框架，爬取效率极高，具有高度定制性，但是不支持分布式。而scrapy-redis一套基于redis数据库、运行在scrapy框架之...

requests 可以 scrapy 不行_Scrapy爬虫流程

weixin_39982017的博客

12-19

376

scrapy爬虫流程了解scrapy爬虫流程，帮助你深刻理解代码逻辑。看图写话：1、发送请求requests：客户端（你的电脑）从spiders中获得url，携带headers、cookie等信息，向服务器发送请求requests对象，请求获得网页；2、获得响应response：服务器给客户端返回response，携带网页信息；3、提取数据、提取url：spider从response中获得网页...

Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip

06-08

Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip 该项目代码主要针对计算机、自动化等相关专业的学生从业者下载使用，项目代码都经过严格调试，确保可以运行！放心下载使用。也可作为期末课程设计、...

python scrapy爬虫-下载图片

08-05

`get_media_requests` 方法返回一个请求，Scrapy 会按照这个请求去下载图片。`file_path` 方法是重写父类的方法，用于指定图片下载后的存储路径。在这个例子中，图片的路径包含了图片所属的小区名称。 `...

scrapy-requests:Scrapy中间件使用request-html处理javascript页面

05-04

使用requests-html非常直观和简单。要求 Python> = 3.6 Scrapy> = 2.0 request-html 安装 pip install scrapy-requests 配置扭曲使用Asyncio事件循环，并将RequestsMiddleware添加到下载器中间件 settings.py...

requests-2.28.1.zip 安装包免费下载

04-23

requests-2.28.1.zip 安装包免费下载 Requests 是一个优雅而简单的 Python HTTP 库，是为人类构建的。 Requests 可以完成，Keep-Alive，带Cookie的持久化session，SSL认证，文件上传下载等诸多功能。如果免费下载...

requests发起请求时正常返回数据scrapy请求返回406或者返回数据为空（亲测有效）

ljf520lhy的博客

04-12

600

解决scrapy发起请求返回406和返回数据为空的问题

使用Request请求库抓取网页时，出现中文乱码的解决方案

Yn_1210的博客

06-12

769

在写爬虫时出现中文乱码的几种解决方法，测试代码如下： import requests headers ={ "Accept": "text/plain, */*; q=0.01" , "Accept-Encoding": "gzip, deflate, br,", "Accept-Language": "zh-CN,zh;q=0.9", "Connection": "keep-alive", "Host": "www.douban.com", "User-Agent": "Mozilla/5.0 (Wi

scrapy 访问网站失败，重新设置请求cookie的问题

郑德帅

03-19

8161

scrapy 爬取网站，返回值500.设置请求头访问仍然失败，后发现是cookie问题 cookie_dict = {} cookie = 'ASP.NET_SessionId=pl3goafrpilq2ufecsrzdzz0; __RequestVerificationToken=rxrH-Ck-2HM3ryr9l6GtJK2pS-vnQy7oS3HoHnlKAMdg...

github 拒绝我们的请求时的操作方法

weixin_54208715的博客

06-16

1995

github.com拒绝请求时，通过host文件修改dns方法解决之。

Scrapy结构学习——settings配置

子敬的技术博客

12-04

516

Scrapy结构学习——settings配置简介： Settings允许自定义所有Scrapy组件的行为，包括核心，扩展，管道和爬虫本身。设置的基础结构提供了键值映射的全局命名空间，代码可以使用它从中提取配置值。可以通过不同的机制来填充设置。 settings中的选项 settings参数有四个级别，优先级如下：命令行选项(Command line Options)(最高优先...

快醒醒，别睡了!...讲《数据分析pandas库》了—/—＜4＞

最新发布

qq_64603703的博客

07-27

956

详细解说数据分析pandas库中的常用方法

scrapy-playwright教程

06-08

Scrapy-Playwright是一个用于Scrapy框架的插件，它允许您使用Playwright库来爬取JavaScript动态渲染的网站。下面是使用Scrapy-Playwright进行Web Scraping的简单教程： 1. 安装Scrapy-Playwright 您可以使用pip命令来安装Scrapy-Playwright。在命令提示符或终端中运行以下命令： ``` pip install scrapy-playwright ``` 2. 配置Scrapy-Playwright 要使用Scrapy-Playwright，您需要在Scrapy项目的settings.py文件中进行配置。添加以下行： ``` DOWNLOADER_MIDDLEWARES = { 'scrapy_playwright.PlaywrightMiddleware': 543, } PLAYWRIGHT_LAUNCH_OPTIONS = { 'headless': True, } ``` 这将启用Playwright中间件，并将Playwright设置为在无头模式下运行。 3. 创建Spider 创建一个新的Spider并导入PlaywrightRequest和PlaywrightResponse类。这些类类似于Scrapy的Request和Response类，但它们使用Playwright库来处理JavaScript渲染。 ``` from scrapy_playwright import PlaywrightRequest, PlaywrightResponse from scrapy.spiders import Spider class MySpider(Spider): name = 'myspider' start_urls = ['https://www.example.com'] def start_requests(self): for url in self.start_urls: yield PlaywrightRequest(url) def parse(self, response: PlaywrightResponse): # 处理响应 ``` 4. 处理响应在parse方法中，您可以像处理Scrapy Response对象一样处理PlaywrightResponse对象。但是，PlaywrightResponse对象包含了一个page属性，它是由Playwright库返回的Page对象，您可以使用它来处理JavaScript渲染的内容。 ``` def parse(self, response: PlaywrightResponse): # 获取HTML和JavaScript渲染的内容 html = response.text js_rendered_html = response.page.content() ``` 5. 运行Spider 最后，您可以像运行任何其他Scrapy Spider一样运行您的Spider。 ``` scrapy crawl myspider ``` 希望这个简单的教程能够帮助您开始使用Scrapy-Playwright进行Web Scraping。