[爬虫]请求返回521解决方法

最新推荐文章于 2024-08-11 03:38:42 发布

PersonNotFound

最新推荐文章于 2024-08-11 03:38:42 发布

阅读量1.5w

点赞数 6

分类专栏： java 爬虫文章标签：爬虫 521状态码

本文链接：https://blog.csdn.net/qq_34497208/article/details/79260796

版权

 
 我需要抓取的网站是国家企业信用信息公示系统，但是该网站有反爬虫，一般的url下载方法并不适用，下面是我通过查资料后总结的一个可行的方法。 

 
 首先，要通过url和Cookie还有User-Agent去请求一次目标网址，第一次的cookie可以通过浏览器来获取，cookie主要是需要__jsluid和__jsl_clearance。 

请求后返回状态为521，返回内容是一串加密后的javascript，解密后可以得到一串正常的js代码，运行js代码就可以得到一个cookie就是__jsl_clearance的。因为我是用的java，所以我是用的java自带的脚本引擎类ScriptEngineManager去解析的。javascript解析看代码：

ScriptEngineManager manager = new ScriptEngineManager();
//得到脚本引擎
ScriptEngine engine = man

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PersonNotFound

关注关注

6
点赞
踩
14

收藏

觉得还不错? 一键收藏
11
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫requests返回值为空的解决方案

weixin_43178406的博客

05-24

3万+

本文主要介绍了requests返回值为空的解决方案，希望能对学习爬虫的同学们有所帮助。需要说明的是，该方案适合无需进行登录账户等其他操作就能通过浏览器看到网站内容的情况，而不适用更加复杂的场景。文章目录 1. 问题描述 2. 解决方案

响应码521与国家企业信用信息公示系统js解析

fengxueersui的博客

07-19

2918

所谓的521是网络在请求是返回的状态码为521，并且反回一段js，js执行后会生成一段cookie，携带cookie再次向服务器发送请求，才可以请求成功，而且ip和cookie绑定，切换ip需要重新获取cookie 原理还是比较简单的，难度在于js的执行，如果使用selenium这个问题还是比较容易处理，但是爬虫讲究的是速度和高效，本文深度剖析一下521中返回的js具体执行过程以国家企业信用...

11 条评论您还未登录，请先登录后发表或查看评论

爬虫回响521_爬虫遇到521错误怎么办

weixin_35645701的博客

02-05

1277

Python网络爬虫案例实战：静态网页爬取：Requests爬虫实践

最新发布

andyyah晓波的博客

08-11

1591

至此，已经介绍了利用爬虫网络对静态网页进行爬取，下面直接通过两个实例来演示爬虫的实践。

爬虫521应对

qq_42636010的博客

06-28

906

要做一个动态ip池，结果爬ip地址的时候遇到一个网站返回521 百度后根据前人的经验得知这种网站是有两次请求，第一次请求返回一个cookie（这时候状态是521），然后第二次请求带着这个cookie请求就会又得到一个cookie，这个cookie可以用第一次请求返回的js代码获得，用这两个cookie同时请求才能获得正确的response。而且两次请求的User-Agent一定要一样所以要设置he...

python爬虫处理521状态码

weixin_30752699的博客

03-13

2225

　　在抓取数据的时候往往可以通过状态码来判断返回结果，今天在抓取数据的时候碰到了以前没有碰到过得状态码521，输出它的爬取内容（text），发现是一些js代码。一起探讨一下如何处理521状态码。　　用charles抓包的时候，发现浏览器对于同一网页连续访问了两次，第一次的访问状态码为521，第二次为200（正常访问）。看来网页加了反爬虫机制，需要两次访问才可返回正常网页。通过对比两...

Scrapy反爬虫之521异常

u011414629的专栏

12-22

1738

引子最近在爬取一个网站时, 遇到了521错误, 这是一种网站的反爬技术, 浏览器会渲染很多东西,代码爬数据会漏掉浏览器渲染的信息思路可以尝试复制浏览器的cookie信息, 加在请求头中, 但是这样只能获取单个域名的网页。恰巧我需要爬取的网站下面有多个二级域名的网页(二级域名网页的链接可以通过一级域名获取), 复制每个二级域名的cookie来爬取每个二级域名的网页是不太可能的进一步...

爬虫回响521_521：两次JS动态混淆反爬导致521响应码，如何破？

weixin_39747334的博客

12-20

279

核心代码在于：JS 片段的处理，去掉脚本标签，还有重定向 JS对 JS 添加 return 获取 cookie 的语句执行 JS，而且如果获取到的是无效的 Cookie ，再进行二次执行UserAgent 信息很重要，一般的信息都无效，只有一个是有效的。最终这个爬虫请求得到了完整的响应页面：启示录这个爬虫 521 攻破的核心是 UserAgent 信息get.setHeader("User-Age...

网络爬虫-解决直接访问请求地址返回403错误的问题-Python实例源码.zip

12-13

在进行网络爬虫开发时，我们常常会遇到服务器返回403 Forbidden错误的情况。...在实际编程中，可以参考提供的"网络爬虫-解决直接访问请求地址返回403错误的问题"的源码示例，学习如何在Python中应用上述策略。

解决Python 爬虫URL中存在中文或特殊符号无法请求的问题

09-20

在进行Python爬虫开发时，经常会遇到需要向服务器发送包含中文或特殊符号的URL请求。但是，中文字符和一些特殊符号在URL中有特殊的编码含义，直接使用会导致请求失败或服务器无法正确解析。为了解决这个问题，Python...

python爬虫返回403错误？加了请求头+代理也解决不了＞＞看这

云霄IT的博客

02-15

9879

【疑惑】：使用python的requests库发起get或post请求返回403代码错误，使用postman发起请求发现状态码竟然成功了。首先排除ip问题，ip有问题的话postman也访问不了。难道是headers出现了问题吗，通过对比发现也不是headers的问题。【解疑】：其实遇到这种情况大概率是遇到了“原生模拟浏览器 TLS/JA3 指纹的验证”，浏览器和postman都有自带指纹验证，而唯独requests库没有。这就让反爬有了区分人为和爬虫的突破口。2、使用 pyhttpx 库。

ajax请求设置返回类型

weixin_44349998的博客

04-14

2655

ajax请求设置返回类型和请求参数类型 Controller层的某一接口使用@ResponseBody用来返回XML或JSON字符串 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q2Pm5SS9-1649326279608)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20220407155323075.png)] ajax请求返回如下： [外链图片转存失败,源站可能有防盗链机

关于Python爬取网页返回521状况码的解决方案

NorburyL

01-23

4048

项目场景： Python3.8 问题描述：在这里插入代码片原因分析：频繁爬取目标网站，导致的网址反爬虫措施解决方案：

BUG - 数据爬取返回状态码“521”

LIN的博客

06-18

6682

目录一、521返回分析和处理思路总结二、代码实现 2-1 安装必要依赖 - PyExecJS 2-2 根据 521 返回数据生成新的 cookie 2-3 捕获 521 错误，并重新发起请求一、521返回分析和处理思路总结 521处理 - 参考链接浏览器访问网站时第一次请求：返回521状态码和一段js代码。js会生成一段cookie并重新请求访问。第二次请求：...

js_cookie 破解 | 爬虫遇到 521 还不会解决吗？

静觅

08-10

758

最近看到一篇【猿人学 Python】文章【写爬虫，免不了要研究 JavaScript 设置 cookies 的问题】, 里面说到了 mps“zggaw“的破解返回 52...

Java网页抓取网页内容时，乱码问题的解决

haha_mingg的专栏

09-03

7278

有时我们抓取网页的内容时，出现乱码，我们可以使用两种方式，去解新这个问题。一种是： public static String clawer(String myurl) { int i = 0; StringBuffer sb = new StringBuffer(""); URL url; try { url = new URL(myurl); BufferedR

java 爬虫抓取网上的图片报错521解决方案

weixin_39310051的博客

08-11

1491

521错误码需要请求多次，才能返回想要的值；使用Fiddler 4抓取到url调用了三次才拿到结果，所以需要逐一解析返回值。 1、第一次请求：

爬虫返回状态码“521” 解决方案 | 设置Cookie解决

用途：中英文学习笔记，如有侵权，可评论留言，及时清理；学历：NUS计算机硕士；SYSU地球物理学士

04-12

5755

问题：在爬虫某个网页时，返回状态码为”521“，如何解决？ Code: import requests def get_one_page(url): headers = { 'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36' } respons

使用Nginx配置过滤爬虫请求头信息

本文主要介绍了如何使用Nginx来识别并限制特定爬虫对网站的访问，通过配置请求头中的User-Agent字段实现过滤。...这种方法对于那些希望控制爬虫访问的网站管理员来说，是一个实用且有效的解决方案。