国家企业信用信息公示系统爬虫

本文介绍如何解析国家企业信用信息公示系统及30多个省份子系统的反扒机制,涉及的主要步骤包括获取混淆JS代码并计算出五个关键Cookie,通过双层循环暴力计算匹配算法,并最终获得完整Cookies来访问数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文仅供学习交流使用,请勿用于商业用途或不正当行为
如果侵犯到贵公司的隐私或权益,请联系我立即删除

国家企业信用信息公示系统及30多个省份的子系统均采用了加速乐的反扒,仔细研究可发现其主要的5个cookie(__jsluid_h, __jsl_clearance, JSESSIONID, SECTOKEN, tlb_cookie)是多次请求结果运算得出的。
下面附请求步骤及源码:
1、第一次访问http://www.gsxt.gov.cn/index.html, 得到响应,HTTP状态码521,响应内容为混淆后的js代码:<script>document.cookie=('_')+('_')+('j')+('s')+('l')+('_')+('c')+('l')+('e')+('a')+('r')+('a')+('n')+('c')+('e')+('=')+((+true)+'')+(-~[5]+'')+(~~[]+'')+(1+7+'')+(2+4+'')+(-~1+'')+(1+7+'')+(5+'')+(2+2+'')+(+!+[]+'')+('.')+(1+1+'')+(+!+[]+'')+(3+6+'')+('|')+('-')+(-~[]+'')+('|')+('f')+('R')+('z')+(~~false+'')+('m')+(2+6+'')+('a')+('c')+('T')+('x')+('p')+('Q')+('e')+('R')+('b')+('U')+('i')+('I')+('v')+('Y')+('o')+('n')+('o')+(-~false+'')+('w')+('K')+('c')+('%')+((1|2)+'')+('D')+(';')+('m')+('a')+('x')+('-')+('a')+('g')+('e')+('=')+((2^1)+'')+(6+'')+(~~{}+'')+((+[])+'')+(';')+('p')+('a')+('t')+('h')+('=')+('/');location.href=location.pathname+location.search</script>,处理字符串删掉=前和;后的代码,使用python js引擎执行该段代码会得到__jsl_clearance的值,__jsluid_h 的值在headers[‘Set-Cookie’]取得。
2。带着第一步算出来的两个cookies第二次访问http://www.gsxt.gov.cn/index.html, 得到响应,HTTP状态码521,响应内容为混淆后的js代码,使用正则处理后取得我们想要的代码段:go({"bts":["1608628995.812|0|808","WKB31Vg1BYyNVBpbBUuuhQ%3D"],"chars":"ZiiLFCcQzBPoefDhSVUDVo","ct":"7e287d4ccc0959fc5c9b0e037e54208e55260005","ha":"sha1","tn":"__jsl_clearance","vt":"3600","wt":"1500"}),这几个值就是算出终极cookies必须参数,cookieTemp = bts[0] + chars[i] + chars[j] + bts[1],ct为使用返回的"ha"的加密算法计算出的临时值,"ha"算法有三种,sha1,sha256和md5,我们需要使用双层循环i,j暴力算出当cookieTemp ==ct时,i和j的值,当i,j算出来后就可以拼接正确的更新后的__jsl_clearance的值cookie= bts[0] + chars[i] + chars[j] + bts[1]了。
3,使用第二步算出的更新后的__jsl_clearance的值和第一步的__jsluid_h 的值第三次访问http://www.gsxt.gov.cn/index.html, 得到响应,HTTP状态码200,第三次请求的headers里会有我们想要的另外三个cookies:JSESSIONID, SECTOKEN, tlb_cookie,拼接好这5个cookie就可以访问拿数据了。下面附请求脚本

import hashlib
import json
import re
import execjs
import requests

def get_hash256(data: str):
    hash256 = hashlib.sha256(data.encode('utf-8'))
    return hash256.hexdigest()


def get_hashsha1(data:str):
    sha = hashlib.sha1(data.encode('utf-8'))
    return sha.hexdigest()

def get_hashmd5(data:str):
    hl = hashlib.md5(data.encode(
,从数据采集、人工标注、模型构建、训练和验证的过程,最终构建形成demo演示 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
### 编写 Python 爬虫代码获取国家企业信用信息公示系统的异常经营状态 要实现通过 Python 获取国家企业信用信息公示系统中的异常经营状态数据,可以采用 `requests` 和 `BeautifulSoup` 库来完成网页请求与解析的任务。以下是详细的说明以及示例代码: #### 请求目标网站并处理反爬机制 国家企业信用信息公示系统通常会设置一定的反爬措施,例如动态加载内容、验证码验证或者 IP 频率限制等。因此,在编写爬虫前需注意以下几点[^1]: - 使用合法的 User-Agent 来模拟浏览器访问。 - 添加必要的 headers 参数以减少被识别为机器的概率。 - 如果涉及登录操作,则需要分析页面表单提交逻辑。 ```python import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } def fetch_company_abnormal_status(company_name): base_url = "http://www.gsxt.gov.cn/index.html" # 构建查询参数 params = {'searchword': company_name} try: response = requests.get(base_url, params=params, headers=headers) response.raise_for_status() soup = BeautifulSoup(response.text, 'html.parser') abnormal_info_section = soup.find('section', class_='abnormal-info') # 假设存在特定标签结构 if not abnormal_info_section: return f"未找到 {company_name} 的异常经营信息。" data_list = [] items = abnormal_info_section.find_all('div', class_='item') for item in items: title = item.find('h3').get_text(strip=True) details = item.find('p').get_text(strip=True) entry = {"title": title, "details": details} data_list.append(entry) return data_list except Exception as e: return str(e) if __name__ == "__main__": result = fetch_company_abnormal_status("某公司名称") # 替换为目标公司的具体名称 print(result) ``` 上述代码实现了基本的功能框架,但需要注意实际部署时可能遇到的具体情况调整[^2]。 #### 数据存储方式的选择 对于抓取到的数据可以选择多种方式进行保存,比如 JSON 文件、CSV 表格或者是数据库记录等形式。这里提供一个简单的例子展示如何将结果存入 CSV 中: ```python import csv def save_to_csv(data, filename="output.csv"): keys = ["title", "details"] with open(filename, mode='w', newline='', encoding='utf-8') as file: writer = csv.DictWriter(file, fieldnames=keys) writer.writeheader() writer.writerows(data) data = [{"title":"列入原因","details":"未按时年报"}] save_to_csv(data) ``` 此部分功能可以根据项目需求进一步扩展优化。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值