国家企业信用信息公示系统爬虫

最新推荐文章于 2024-07-22 02:04:40 发布

置顶

梦醒繁花落

最新推荐文章于 2024-07-22 02:04:40 发布

阅读量4.9k

点赞数 3

分类专栏：工商数据文章标签： python 爬虫 js

本文链接：https://blog.csdn.net/weixin_43242352/article/details/111562174

版权

本文介绍如何解析国家企业信用信息公示系统及30多个省份子系统的反扒机制，涉及的主要步骤包括获取混淆JS代码并计算出五个关键Cookie，通过双层循环暴力计算匹配算法，并最终获得完整Cookies来访问数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文仅供学习交流使用，请勿用于商业用途或不正当行为
如果侵犯到贵公司的隐私或权益，请联系我立即删除

国家企业信用信息公示系统及30多个省份的子系统均采用了加速乐的反扒，仔细研究可发现其主要的5个cookie（__jsluid_h， __jsl_clearance， JSESSIONID， SECTOKEN， tlb_cookie）是多次请求结果运算得出的。
下面附请求步骤及源码：
1、第一次访问http://www.gsxt.gov.cn/index.html, 得到响应，HTTP状态码521,响应内容为混淆后的js代码:<script>document.cookie=('_')+('_')+('j')+('s')+('l')+('_')+('c')+('l')+('e')+('a')+('r')+('a')+('n')+('c')+('e')+('=')+((+true)+'')+(-~[5]+'')+(~~[]+'')+(1+7+'')+(2+4+'')+(-~1+'')+(1+7+'')+(5+'')+(2+2+'')+(+!+[]+'')+('.')+(1+1+'')+(+!+[]+'')+(3+6+'')+('|')+('-')+(-~[]+'')+('|')+('f')+('R')+('z')+(~~false+'')+('m')+(2+6+'')+('a')+('c')+('T')+('x')+('p')+('Q')+('e')+('R')+('b')+('U')+('i')+('I')+('v')+('Y')+('o')+('n')+('o')+(-~false+'')+('w')+('K')+('c')+('%')+((1|2)+'')+('D')+(';')+('m')+('a')+('x')+('-')+('a')+('g')+('e')+('=')+((2^1)+'')+(6+'')+(~~{}+'')+((+[])+'')+(';')+('p')+('a')+('t')+('h')+('=')+('/');location.href=location.pathname+location.search</script>,处理字符串删掉=前和；后的代码，使用python js引擎执行该段代码会得到__jsl_clearance的值，__jsluid_h 的值在headers[‘Set-Cookie’]取得。
2。带着第一步算出来的两个cookies第二次访问http://www.gsxt.gov.cn/index.html, 得到响应，HTTP状态码521,响应内容为混淆后的js代码，使用正则处理后取得我们想要的代码段：go({"bts":["1608628995.812|0|808","WKB31Vg1BYyNVBpbBUuuhQ%3D"],"chars":"ZiiLFCcQzBPoefDhSVUDVo","ct":"7e287d4ccc0959fc5c9b0e037e54208e55260005","ha":"sha1","tn":"__jsl_clearance","vt":"3600","wt":"1500"})，这几个值就是算出终极cookies必须参数，cookieTemp = bts[0] + chars[i] + chars[j] + bts[1]，ct为使用返回的"ha"的加密算法计算出的临时值，"ha"算法有三种，sha1，sha256和md5，我们需要使用双层循环i，j暴力算出当cookieTemp ==ct时，i和j的值，当i，j算出来后就可以拼接正确的更新后的__jsl_clearance的值cookie= bts[0] + chars[i] + chars[j] + bts[1]了。
3，使用第二步算出的更新后的__jsl_clearance的值和第一步的__jsluid_h 的值第三次访问http://www.gsxt.gov.cn/index.html, 得到响应，HTTP状态码200，第三次请求的headers里会有我们想要的另外三个cookies：JSESSIONID， SECTOKEN， tlb_cookie，拼接好这5个cookie就可以访问拿数据了。下面附请求脚本

import hashlib
import json
import re
import execjs
import requests

def get_hash256(data: str):
    hash256 = hashlib.sha256(data.encode('utf-8'))
    return hash256.hexdigest()


def get_hashsha1(data:str):
    sha = hashlib.sha1(data.encode('utf-8'))
    return sha.hexdigest()

def get_hashmd5(data:str):
    hl = hashlib.md5(data.encode(

最低0.47元/天解锁文章