最近看到一篇【猿人学 Python】文章【写爬虫,免不了要研究 JavaScript 设置 cookies 的问题 】, 里面说到了 mps“zggaw“的破解返回 521 的问题,然后自己也去尝试了一把,现在把我的实现过程分享出来,让有需要的人看到。
转载来源
公众号:离不开的网
“阅读本文大概需要 12 分钟。
那我们就直接入正题了,首先我们的目标网址是 “http://www.mps.gov.cn/n2253534/n2253535/index.html”,我们直接发起请求试试:
很明显,看到返回 521,返回状态码 521 是什么意思呢?
5xx(服务器错误)
这些状态代码表示服务器在尝试处理请求时发生内部错误。这些错误可能是服务器本身的错误,而不是请求出错。
这时候我们打开 Chrome 的开发者工具,到 Network 模块,一定把 Preserve log 打上勾不然看不到 521 那个红色的失败链接,Preserve log 的作用是保留请求日志。跳转页面的时候勾选上,可以看到跳转前的请求。
然后点开那个红色的 index.html,可以看到它 status_code 状态码为 521,下面 set cookie 设置了 cookie 值,切换到 Response 发现没有内容,为空。
这时候可以尝试两种方法继续走下去:
第一种就是尝试用火狐浏览器重复上面操作,查看 Response 响应栏下是否有内容
第二种就是直接尝试 r.text,看是否有内容返回
可以看到,上面两种方法都能得到一串 js 代码,给了你走下去的可能,还有你们也可以通过抓包工具来获得这些内容。
得到了一串js代码,我们应该怎么办了?首先,这一串看着就不舒服,我们先把它格式化了再看,介绍一个 js 代码美化网站 “https://beautifier.io/”,当然还有很多网站可以美化 js 代码,自行百度即可。那么接下来我们把代码拷贝到这个网站下进行查看。
选取我们需要的部分 < script> < /script > 中间的那一部分,并做修改复制到 Chrome 开发者工具的 Console 模块进行调试,把 eval 换成 console.log(下面代码已经修改),并拷贝到 Console 之后 enter 即可。
var x = "substr@@@@parseInt@@reverse@function@nvS@@0xEDB88320@55@14@@36@new@@@@Path@_p@9@catch@g@a@@@q5k@@O@return@@Wed@onreadystatechange@@String@@GMT@https@Jul@window@f@@3@@@@rOm9XFMtA3QKV7nYsPGT4lifyWwkq5vcjH2IdxUoCbhERLaz81DNB6@chars@@@join@firstChild@DOMContentLoaded@split@@Array@1@JgSe0upZ@var@1500@for@setTimeout@@@@10@toString@href@pathname@@__jsl_clearance@document@cookie@8@captcha@div@Expires@t@@@4@@12@hantom@false@k@v@19@@fromCharCode@eval@@while@length@innerHTML@location@@toLowerCase@d@charCodeAt@RegExp@1562764375@@else@0xFF@0@@@if@attachEvent@createElement@2@e@addEventListener@challenge@charAt@replace@D@435@@@@try@@match@search@".replace(/@*$/, "").split("@"), y = "2i 2e=8(){30('4d.36=4d.37+4d.61.5d(/[\?|&]3d-5b/,\'\')',2j);3a.3b='39=4j.5f|52|'+(8(){2i h=[8(2e){1a 2e},8(h){1a h},8(2e){1a 48('1f.47('+2e+')')}],1b=[(-~!/!/-~!/!/+[[]][52]),[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]],[(+!-[])]+[[((+!-[])<<(+!-[]))]*((((+!-[])<<(+!-[]))^-~{}))],(-~!/!/-~!/!/+[[]][52])+((+!/!/)+[[]][52]),[(+!-[])]+(-~!/!/-~!/!/+22+[]),[(+!-[])]+[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]],(-~!/!/-~!/!/+[[]][52])+[(+!-[])],[(+!-[])]+(3j+[]+[[]][52]),[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)],(22+[[]][52]),(3j+[]+[[]][52]),[(+!-[])]+(22+[[]][52]),[[((+!-[])<<(+!-[]))]*((((+!-[])<<(+!-[]))^-~{}))],[(+!-[])]+(11+[]),[(+!-[])]+[(+!-[])],[(+!-[])]+[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)],(11+[]),[(+!-[])]+(-~!/!/-~!/!/+[[]][52]),[(+!-[])],((+!/!/)+[[]][52]),[(+!-[])]+((+!/!/)+[[]][52]),(-~!/!/-~!/!/+22+[])];2k(2i 2e=52;2e<1b.4b;2e++){1b[2e]=h[[58,52,2g,58,2g,52,2g,58,2g,58,2g,58,2g,52,2g,52,2g,58,2g,58,52,2g][2e]]([[(22+[[]][52])+[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)]],'52',[[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]+[[((+!-[])<<(+!-[]))]*((((+!-[])<<(+!-[]))^-~{}))]],[[(+!-[])]+((+!/!/)+[[]][52])+(22+[[]][52]),[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]+(-~!/!/-~!/!/+[[]][52])],'17','5e','43','44',(!1k['10'+'41']+[]+[]).5c((-~!/!/+[58]>>58))+[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)]+[!''+[]][52].5c((+!/!/))+[+[~~[], ~~[]]+[]+[]][52].5c(-~-~[]),'%58',(22+[[]][52]),'19',[[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)]+((+!/!/)+[[]][52])],[[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]+(3j+[]+[[]][52])],[[(+!-[])]+[(+!-[])]+[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]],'59','9',[!''+[]][52].5c((+!/!/))+(+{}+[]+[[]][52]).5c(-~{}),(11+[]),[(+!-[])],[[(+!-[])]+((+!/!/)+[[]][52])+(3j+[]+[[]][52])],'3g'][1b[2e]])};1a 1b.2a('')})()+';3f=1c, 34-1j-45 d:40:c 1h;k=/;'};55((8(){5j{1a !!1k.5a;}12(59){1a 42;}})()){3a.5a('2c',2e,42)}50{3a.56('1d',2e)}", f = function(x, y) { var a = 0, b = 0, c = 0; x = x.split(""); y = y || 99; while ((a = x.shift()) && (b = a.charCodeAt(0) - 77.5)) c = (Math.abs(b) < 13 ? (b + 48.5) : parseInt(a, 36)) + y * c; return c }, z = f(y.match(/w/g).sort(function(x, y) { return f(x) - f(y) }).pop());while (z++) try { console.log(y.replace(/w+/g, function(y) { return x[f(y, z) - 1] || ("_" + y) })); break} catch (_) {}
可以看到下面红框中又返回了一段 js 代码,这时候别着急,继续我们之前的,先把它格式化美化了再说
复制拷贝代码到上面的 js 代码美化网站中,进行美化查看
var _2e=function(){setTimeout('location.href=location.pathname+location.search.replace(/[\?|&]captcha-challenge/,\'\')',1500);document.cookie='__jsl_clearance=1562764375.435|0|'+(function(){var _h=[function(_2e){return _2e},function(_h){return _h},function(_2e){return eval('String.fromCharCode('+_2e+')')}],_1b=[(-~!/!/-~!/!/+[[]][0]),[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]],[(+!-[])]+[[((+!-[])<<(+!-[]))]*((((+!-[])<<(+!-[]))^-~{}))],(-~!/!/-~!/!/+[[]][0])+((+!/!/)+[[]][0]),[(+!-[])]+(-~!/!/-~!/!/+3+[]),[(+!-[])]+[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]],(-~!/!/-~!/!/+[[]][0])+[(+!-[])],[(+!-[])]+(4+[]+[[]][0]),[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)],(3+[[]][0]),(4+[]+[[]][0]),[(+!-[])]+(3+[[]][0]),[[((+!-[])<<(+!-[]))]*((((+!-[])<<(+!-[]))^-~{}))],[(+!-[])]+(9+[]),[(+!-[])]+[(+!-[])],[(+!-[])]+[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)],(9+[]),[(+!-[])]+(-~!/!/-~!/!/+[[]][0]),[(+!-[])],((+!/!/)+[[]][0]),[(+!-[])]+((+!/!/)+[[]][0]),(-~!/!/-~!/!/+3+[])];for(var _2e=0;_2e<_1b.length;_2e++){_1b[_2e]=_h[[2,0,1,2,1,0,1,2,1,2,1,2,1,0,1,0,1,2,1,2,0,1][_2e]]([[(3+[[]][0])+[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)]],'0',[[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]+[[((+!-[])<<(+!-[]))]*((((+!-[])<<(+!-[]))^-~{}))]],[[(+!-[])]+((+!/!/)+[[]][0])+(3+[[]][0]),[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]+(-~!/!/-~!/!/+[[]][0])],'q5k','D','k','v',(!window['_p'+'hantom']+[]+[]).charAt((-~!/!/+[2]>>2))+[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)]+[!''+[]][0].charAt((+!/!/))+[+[~~[], ~~[]]+[]+[]][0].charAt(-~-~[]),'%2',(3+[[]][0]),'O',[[-~!/!/-~!/!/+([-~!/!/-~!/!/]+~~{}>>-~!/!/-~!/!/)]+((+!/!/)+[[]][0])],[[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]+(4+[]+[[]][0])],[[(+!-[])]+[(+!-[])]+[((+!-[])<<(+!-[]))+(+!-[])-~-~[]+(+!-[])-~-~[]]],'e','nvS',[!''+[]][0].charAt((+!/!/))+(+{}+[]+[[]][0]).charAt(-~{}),(9+[]),[(+!-[])],[[(+!-[])]+((+!/!/)+[[]][0])+(4+[]+[[]][0])],'t'][_1b[_2e]])};return _1b.join('')})()+';Expires=Wed, 10-Jul-19 14:12:55 GMT;Path=/;'};if((function(){try{return !!window.addEventListener;}catch(e){return false;}})()){document.addEventListener('DOMContentLoaded',_2e,false)}else{document.attachEvent('onreadystatechange',_2e)}
这个时候可以看到一段很长的 js 代码,我们慢慢分析,找出我们想要的 setTimeout ('location.href=location.pathname+location.search.replace (/[?|&] captcha-challenge/,'')', 1500); 开头代码中可以看到 1500 估计就是我们一开始进去是等待网站在刷新出现内容的那一点五秒,这不重要,我们继续往下看 document.cookie = '__jsl_clearance=1562764375.435|0|' + (function () {下一句就是我们想要的了,cookie 关键词,我们爬虫无非就那几样东西,到这里大概能知道就是这个网站会返回一串生成 cookie 值的 js 代码,然后需要携带上这串 js 去请求网站就能成功返回信息了。我们找找 cookie 值的生成代码部分:
cookie = '__jsl_clearance=1562764375.435|0|' + (function() { var _h = [function(_2e) { return _2e }, function(_h) { return _h }, function(_2e) { return eval('String.fromCharCode(' + _2e + ')') }], _1b = [(-~!/!/ - ~!/!/ + [ [] ][0]), [((+!-[]) << (+!-[])) + (+!-[]) - ~-~[] + (+!-[]) - ~-~[]], [(+!-[])] + [ [((+!-[]) << (+!-[]))] * ((((+!-[]) << (+!-[])) ^ -~{})) ], (-~!/!/ - ~!/!/ + [ [] ][0]) + ((+!/!/) + [ [] ][0]), [(+!-[])] + (-~!/!/ - ~!/!/ + 3 + []), [(+!-[])] + [((+!-[]) << (+!-[])) + (+!-[]) - ~-~[] + (+!-[]) - ~-~[]], (-~!/!/ - ~!/!/ + [ [] ][0]) + [(+!-[])], [(+!-[])] + (4 + [] + [ [] ][0]), [-~!/!/ - ~!/!/ + ([-~!/!/ - ~!/!/] + ~~{} >> -~!/!/ - ~!/!/)], (3 + [ [] ][0]), (4 + [] + [ [] ][0]), [(+!-[])] + (3 + [ [] ][0]), [ [((+!-[]) << (+!-[]))] * ((((+!-[]) << (+!-[])) ^ -~{})) ], [(+!-[])] + (9 + []), [(+!-[])] + [(+!-[])], [(+!-[])] + [-~!/!/ - ~!/!/ + ([-~!/!/ - ~!/!/] + ~~{} >> -~!/!/ - ~!/!/)], (9 + []), [(+!-[])] + (-~!/!/ - ~!/!/ + [ [] ][0]), [(+!-[])], ((+!/!/) + [ [] ][0]), [(+!-[])] + ((+!/!/) + [ [] ][0]), (-~!/!/ - ~!/!/ + 3 + []) ]; for (var _2e = 0; _2e < _1b.length; _2e++) { _1b[_2e] = _h[[2, 0, 1, 2, 1, 0, 1, 2, 1, 2, 1, 2, 1, 0, 1, 0, 1, 2, 1, 2, 0, 1][_2e]]([ [(3 + [ [] ][0]) + [-~!/!/ - ~!/!/ + ([-~!/!/ - ~!/!/] + ~~{} >> -~!/!/ - ~!/!/)]], '0', [ [((+!-[]) << (+!-[])) + (+!-[]) - ~-~[] + (+!-[]) - ~-~[]] + [ [((+!-[]) << (+!-[]))] * ((((+!-[]) << (+!-[])) ^ -~{})) ] ], [ [(+!-[])] + ((+!/!/) + [ [] ][0]) + (3 + [ [] ][0]), [((+!-[]) << (+!-[])) + (+!-[]) - ~-~[] + (+!-[]) - ~-~[]] + (-~!/!/ - ~!/!/ + [ [] ][0]) ], 'q5k', 'D', 'k', 'v', (!window['_p' + 'hantom'] + [] + []).charAt((-~!/!/ + [2] >> 2)) + [-~!/!/ - ~!/!/ + ([-~!/!/ - ~!/!/] + ~~{} >> -~!/!/ - ~!/!/)] + [!'' + []][0].charAt((+!/!/)) + [+[~~[], ~~[]] + [] + []][0].charAt(-~-~[]), '%2', (3 + [ [] ][0]), 'O', [ [-~!/!/ - ~!/!/ + ([-~!/!/ - ~!/!/] + ~~{} >> -~!/!/ - ~!/!/)] + ((+!/!/) + [ [] ][0]) ], [ [((+!-[]) << (+!-[])) + (+!-[]) - ~-~[] + (+!-[]) - ~-~[]] + (4 + [] + [ [] ][0]) ], [ [(+!-[])] + [(+!-[])] + [((+!-[]) << (+!-[])) + (+!-[]) - ~-~[] + (+!-[]) - ~-~[]] ], 'e', 'nvS', [!'' + []][0].charAt((+!/!/)) + (+{} + [] + [ [] ][0]).charAt(-~{}), (9 + []), [(+!-[])], [ [(+!-[])] + ((+!/!/) + [ [] ][0]) + (4 + [] + [ [] ][0]) ], 't' ][_1b[_2e]]) }; return _1b.join('') })() + ';Expires=Wed, 10-Jul-19 14:12:55 GMT;Path=/;'
上面就是我们需要的,把他复制到 Console 调试查看下调试结果是否我们所需要的
根据调试结果我们知道,没错我们找对了,这就是我们需要的 cookie 的 js 生成代码,接下来就很简单了,我们用 Python 把这过程重现一遍,用 Python 的 js 代码运行模块(PyV8、PyExecJS、js2py,推荐使用 PyExecJS)运行这几段 js 代码得到我们所需 cookie 就可以携带者 cookie 去登陆网站了,那么我们开始实现 Python 代码吧!
首先,我这次用到了 execjs 这个模块,你需要 pip 安装 pip install PyExecJS,然后导入即可 import execjs
我安装了 nodejs,所以我机器中 execjs 运行 js 代码的后端如上图所示。
然后就是我通过 requests.Session () 构造 session 发起请求并且这样方便管理 cookies,发起请求代码 res = session.get (url, headers=headers)。返回结果我们也知道就是一段 js 代码,然后我们需要处理这段 js 代码,用 python 语句实现我们之前做的,目标是得到 cookie 的值。
处理返回 js 代码块 Python 语言实现如下:
代码中已经注释很清楚了,自己理解理解。
这时候已经得到 cookie 那个值了,下面就是构造 cookie 并携带发起请求就可以,相信这对于你们来说很简单。
等等,你以为就结束了吗,其实在这个过程中,我还发现一个问题就是,我是通过 parse_qsl 处理的 cookie 返回值,但是 parse_qsl 会把 字符串 unquote,但是发给服务器的 cookie 的__jsl_clearance 最后面的 | 后面的字符串必须是 quote 过的服务器才认为正确,所以我们还要在进行一步处理,或则也可以直接分割,先按分号:分割,再按等号 = 分割就可以,这就便面了接下来这一步。
好的,到这里就基本完成了 js_cookie 的破解了,你也可以毫无问题的请求这个网站不会再遇到 521 问题了,是不是解决了,最后提醒一下,因为他返回的 js 计算出来的 cookie 值那个 cookie 最前面是一个时间戳,跟实际时间比差 7 小时,所以你懂得,处理时间戳时再加上 7 小时(也就是 25200 秒)即可。
推荐阅读
1
2
跟繁琐的模型说拜拜!深度学习脚手架 ModelZoo 来袭!
3
4
妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池
崔庆才
静觅博客博主,《Python3网络爬虫开发实战》作者
隐形字
个人公众号:进击的Coder
长按识别二维码关注