python爬虫国家企业信息网_国家企业信用信息公示系统爬虫

国家企业信用信息公示系统及30多个省份的子系统均采用了加速乐的反扒,仔细研究可发现其主要的5个cookie(__jsluid_h, __jsl_clearance, JSESSIONID, SECTOKEN, tlb_cookie)是多次请求结果运算得出的。

下面附请求步骤及源码:

1、第一次访问http://www.gsxt.gov.cn/index.html, 得到响应,HTTP状态码521,响应内容为混淆后的js代码:,处理字符串删掉=前和;后的代码,使用python js引擎执行该段代码会得到__jsl_clearance的值,__jsluid_h 的值在headers[‘Set-Cookie’]取得。

2。带着第一步算出来的两个cookies第二次访问http://www.gsxt.gov.cn/index.html, 得到响应,HTTP状态码521,响应内容为混淆后的js代码,使用正则处理后取得我们想要的代码段:go({"bts":["1608628995.812|0|808","WKB31Vg1BYyNVBpbBUuuhQ%3D"],"chars":"ZiiLFCcQzBPoefDhSVUDVo","ct":"7e287d4ccc0959fc5c9b0e037e54208e55260005","ha":"sha1","tn":"__jsl_clearance","vt":"3600","wt":"1500"}),这几个值就是算出终极cookies必须参数,cookieTemp = bts[0] + chars[i] + chars[j] + bts[1],ct为使用返回的"ha"的加密算法计算出的临时值,"ha"算法有三种,sha1,sha256和md5,我们需要使用双层循环i,j暴力算出当cookieTemp ==ct时,i和j的值,当i,j算出来后就可以拼接正确的更新后的__jsl_clearance的值cookie= bts[0] + chars[i] + chars[j] + bts[1]了。

3,使用第二步算出的更新后的__jsl_clearance的值和第一步的__jsluid_h 的值第三次访问http://www.gsxt.gov.cn/index.html, 得到响应,HTTP状态码200,第三次请求的headers里会有我们想要的另外三个cookies:JSESSIONID, SECTOKEN, tlb_cookie,拼接好这5个cookie就可以访问拿数据了。下面附请求脚本

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值