猿人学-第四题-逆向分析

目标:采集这5页的全部数字,计算加和并提交结果

老规矩F12,打开控制台。开始上下左右检查,看是不是cookies校验、是不是headers加密、是不是参数加密、是不是响应加密。显然这道题都不是,这道题是比较少见得css样式干扰。其返回值并不是那种单纯得数据,其数据在js得info里面。我们得提出了分析。

通过分析,我们可知,其加载得数字是经过排序得。然后我们深入分析,我们会发现规律。

它就是css样式的设计来进行排序的。我们只需要对其分析,写出算法便可。排序只是问题之一。

排序算法:自取

    def sortNum(self, num_list):
        num = 0
        length = len(num_list) - 1
        for i, d in enumerate(num_list):
            n = d[0]
            num += n * 10 ** (length - (i + int(eval(d[1]) / 11.5)))
        return num

其数据格式:[[0, '11.5'], [7, '23.0'], [2, '-23.0'], [7, '-11.5']]

然后,就是我们得进行扣代码。因为有的td标签有很多的img标签。各位千万别被display迷惑了。可以去观察一下其返回的值,他们可是没有display: none的。这是后面加上去的。

通过xhr断点,进入代码。很快就行找到加密位置。发现一看,是md5。这时候得测试是不是正常得md5。

我们通过加密1看看,是不是正常得md5。很明显,两个加密一样。所以我们直接得扣其加密代码。这道题得加密代码扣起来很简单。

得到加密函数后,接下来就是怎么处理图像,这个我忙了很久,开始是想训练个模型,但是太麻烦。然后又想找其他生成好的模型识别,但是我发现很拉跨,再我焦虑之时,突然灵光一闪。其图像是重复利用得,直接用上面得组成一个hash字典便可。不想直接去一个一个找的,我直接放在下面。再多嘴一句:其src属性里的值,就是base64格式的图片。

nums_dict = {
            "": 9,
            "": 8,
            "": 4,
            "": 6,
            "": 1,
            "": 0,
            "": 2,
            "": 7,
            "": 3,
            "": 5
        }

待上面三步具成,我们就可以构建python代码了。

import requests
from lxml import etree
import execjs
from lxpy import get_ua


class FP:
    def firstRequests(self, page):
        headers = {
            "accept": "application/json, text/javascript, */*; q=0.01",
            "accept-language": "zh-CN,zh;q=0.9",
            "cache-control": "no-cache",
            "pragma": "no-cache",
            "priority": "u=0, i",
            "referer": "https://match.yuanrenxue.cn/match/4",
            "sec-ch-ua": "\"Google Chrome\";v=\"125\", \"Chromium\";v=\"125\", \"Not.A/Brand\";v=\"24\"",
            "sec-ch-ua-mobile": "?0",
            "sec-ch-ua-platform": "\"Windows\"",
            "sec-fetch-dest": "empty",
            "sec-fetch-mode": "cors",
            "sec-fetch-site": "same-origin",
            "user-agent": get_ua()['user-agent'],
            "x-requested-with": "XMLHttpRequest"
        }
        url = "https://match.yuanrenxue.cn/api/match/4"
        params = {
            "page": str(page)
        }
        response = requests.get(url, headers=headers, params=params)
        tree = etree.HTML(response.json()['info'])
        key = response.json()['key']
        value = response.json()['value']
        js = execjs.compile(open("four.js", "r", encoding='utf-8').read())
        md5_class = js.call("md5_data", key, value)

        return tree, md5_class


    def pictureRecognition(self, image_url):
        nums_dict = {
            "": 9,
            "": 8,
            "": 4,
            "": 6,
            "": 1,
            "": 0,
            "": 2,
            "": 7,
            "": 3,
            "": 5
        }
        return nums_dict[image_url]

    def sortNum(self, num_list):
        num = 0
        length = len(num_list) - 1
        for i, d in enumerate(num_list):
            n = d[0]
            num += n * 10 ** (length - (i + int(eval(d[1]) / 11.5)))
        return num

    def analyseInfo(self, tree: etree.HTML, md5_class: str):
        td_list = tree.xpath("//td")
        sums_all = 0
        for td in td_list:
            img_list = td.xpath(".//img")
            num_list = []
            for img in img_list:
                class_ = img.xpath(".//@class")[0].split(" ")[-1]
                img_url = img.xpath(".//@src")[0]
                style = img.xpath(".//@style")[0].split(":")[-1].split("p")[0]
                if class_ != md5_class:
                    num_list.append([self.pictureRecognition(img_url), style])
            all = self.sortNum(num_list)
            sums_all += all
            print(all, end="\t")
        print()
        return sums_all


    def main(self):
        sums_all_times = 0
        for page in range(1, 6):
            print("============== the", page, " page================")
            tree, md5_class = self.firstRequests(page)
            time_val = self.analyseInfo(tree, md5_class)
            sums_all_times += time_val
        print("sum of all times: ", sums_all_times)

if __name__ == '__main__':
    fp = FP()
    fp.main()

结果如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值