[爬虫]请求返回521解决方法

我需要抓取的网站是国家企业信用信息公示系统,但是该网站有反爬虫,一般的url下载方法并不适用,下面是我通过查资料后总结的一个可行的方法。

首先,要通过url和Cookie还有User-Agent去请求一次目标网址,第一次的cookie可以通过浏览器来获取,cookie主要是需要__jsluid和__jsl_clearance。

请求后返回状态为521,返回内容是一串加密后的javascript,解密后可以得到一串正常的js代码,运行js代码就可以得到一个cookie就是__jsl_clearance的。因为我是用的java,所以我是用的java自带的脚本引擎类ScriptEngineManager去解析的。javascript解析看代码:

ScriptEngineManager manager = new ScriptEngineManager();
//得到脚本引擎
ScriptEngine engine = man
  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值