python爬虫--URL部分加密破解

背景说明

最近在爬取网站数据时,碰到提取到的a标签的url与真实的url地址不同,将a标签中的部分内容进行了加密处理,再拼接处理,拿到真实的url,进行访问。

示例及分析

a标签: a标签href属性
http://www.sdggzyjy.gov.cn/jsgczbgg/2803000.jhtml
真实url:真实地址
http://www.sdggzyjy.gov.cn/jsgczbgg/V6MerV5ghNJQJOl+vAZ2vA.jhtml
加密文件:

$(function () {
    $("a").click(function () {
        var hh = $(this).attr("href");
        // 切割url http://www.sdggzyjy.gov.cn/jsgczbgg/2803000.jhtml
        var aa = hh.split("/");
        var aaa = aa.length;
        var bbb = aa[aaa - 1].split('.');
        // ccc 为 加密部分字符串 如 2803000
        var ccc = bbb[0];
        var cccc = bbb[1];
        var r = /^\+?[1-9][0-9]*$/;
        if (r.test(ccc) && cccc.indexOf('jhtml') != -1) {
        	//开始进行加密处理   此处开始调用 jquery.lyh-1.1.0.js 文件中的方法
            var srcs = CryptoJS.enc.Utf8.parse(ccc);
            var k = CryptoJS.enc.Utf8.parse(s);
            var en = CryptoJS.AES.encrypt(srcs, k, {mode: CryptoJS.mode.ECB, padding: CryptoJS.pad.Pkcs7});
            var ddd = en.toString();
            ddd = ddd.replace(/\//g, "^");
            //  ddd=  V6MerV5ghNJQJOl+vAZ2vA
            ddd = ddd.substring(0, ddd.length - 2);
            var bbbb = ddd + '.' + bbb[1];
            aa[aaa - 1] = bbbb;
            var uuu = '';
            for (i = 0; i < aaa; i++) {
                uuu += aa[i] + '/'
            }
            uuu = uuu.substring(0, uuu.length - 1);
            window.open(uuu)
        }
    })
});

经过调试,确定调用文件为: jquery.lyh-1.1.0.js

解决方案

开始进行了比较多的尝试,无意中看到该篇文章:python3.6执行AES加密及解密方法
尝试直接进行AES解密,竟然成功了,代码如下

from Crypto.Cipher import AES
import base64

def add_to_16(s):
    while len(s) % 16 != 0:
        s += (16 - len(s) % 16) * chr(16 - len(s) % 16)
    return str.encode(s)  # 返回bytes

def get_secret_url(text,key='qnbyzzwmdgghmcnm'):
    aes = AES.new(str.encode(key), AES.MODE_ECB)  # 初始化加密器,本例采用ECB加密模式
    encrypted_text = str(base64.encodebytes(aes.encrypt(add_to_16(text))), encoding='utf8').replace('\n', '')  # 加密
    encrypted_text=encrypted_text.replace('/', "^")  #  ddd.replace(/\//g, "^")
    return encrypted_text[:-2]

def get_real_url(first_url,key):
    aa=first_url.split('/')
    aaa=len(aa)
    bbb=aa[aaa - 1].split('.')
    ccc = bbb[0]
    secret_text=get_secret_url(ccc,key=key)
    return first_url.replace(ccc,secret_text)

url='http://www.sdggzyjy.gov.cn/jsgczbgg/2803000.jhtml'
key='******' #  此处问加密key值
url=get_real_url(s,key=key)
print(url)

结果 : http://www.sdggzyjy.gov.cn/jsgczbgg/V6MerV5ghNJQJOl+vAZ2vA.jhtml

注意

该处解密使用的是 : AES —pkcs5补码方式
而在调用jQuery文件时,传参值是 CryptoJS.pad.Pkcs7 具有一定的误导性
究其原因:因为AES并没有64位的块, 如果采用PKCS5, 那么实质上就是采用PKCS7
参看:https://www.cnblogs.com/raymond531/p/10420751.html

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在进行Python爬虫时遇到加密参数URL,我们需要获取加密参数的值并解析。首先,我们可以分析URL的结构和加密参数的位置。通常,加密参数会以特定的格式出现在URL中,可能是作为查询参数,也可能是作为路径的一部分。例如,URL可以是类似于 `www.example.com/api/query?param1=value1&param2=value2` 的形式。 我们可以使用Python的网络请求库(如`requests`)向URL发送请求获取网页内容。在发送请求时,我们可以将加密参数的值替换为我们需要的数值。如果加密参数是作为查询参数出现的,我们可以将查询参数加入请求的URL中,如 `http://www.example.com/api/query?param1=value1`。如果加密参数是作为路径的一部分,我们可以将路径中的特定部分替换为我们需要的数值,如 `http://www.example.com/api/query/value1`。 如果加密参数的取值来自于某种加密算法(如MD5、SHA1等),我们需要先了解加密算法的原理,然后根据加密算法的特性进行参数生成。 当我们成功获取到带有正确加密参数URL后,可以继续使用爬虫框架(如`BeautifulSoup`)或者正则表达式等技术对网页内容进行解析,提取我们所需的信息。 值得注意的是,爬虫过程中需要尊重网站的爬虫规则,遵守相关法律法规。在处理加密参数时,我们应该在合法范围内进行处理,如果网站有明确的反爬虫机制,我们需要避免触发这些机制。此外,我们也要注意避免对服务器造成过大的负担,合理设置爬取频率和请求并发数,以确保爬虫行为的合理性和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值