【简单】 猿人学web第一届 第4题 雪碧图,样式干扰

页面分析

打开抓包工具,分析页面发现 对应的数字都是图片生成的
在这里插入图片描述
4位数 应该对应 4张 图片,但对应的 td 标签中 img 数量并不是对等的
在这里插入图片描述

流程分析

接口

返回的数据接口 https://match.yuanrenxue.cn/api/match/4?page=1

在这里插入图片描述

接口没有加密参数

在这里插入图片描述

返回的数据中对应页面上 <td>标签 包含 <img>标签
key, value, iv 并不知道什么作用

在这里插入图片描述

浏览器中 js 对数据的处理

查看请求成功之后对数据做了什么处理

在这里插入图片描述
在这里插入图片描述

$(‘.number’).text(‘’).append(datas);

首先获取了返回数据中的 info 数据 datas = data.info;
再获取整个页面显式数据的标签 $(‘.number’)
在这里插入图片描述

$(‘.number’).text(‘’) 的作用是将这个标签中的内容置空,执行这个方法(标签的内容不见了)
在这里插入图片描述

.append(datas); 是将接口返回的 info 数据添加到这个标签内,执行这个方法(接口的数据都显示到了标签上)
但是图片现在还是乱序的
在这里插入图片描述

var j_key = ‘.’ + hex_md5(btoa(…

var j_key = ‘.’ + hex_md5(btoa(data.key + data.value).replace(/=/g, ‘’));
首先将接口返回的 data.key + data.value 相加
btoa() 是 base64 编码函数
hex_md5() 是 md5 加密函数

在 python 中还原这段代码

def encrypt(data_key, data_value):
    byte_value = (data_key + data_value).encode()  # 将 data_key + data_value 转换成字节,用于 base64编码
    b64enc = b64encode(byte_value)  # base64编码 返回的是字节
    md5_text = MD5.new(b64enc).hexdigest()  # md5 加密 返回的是字符串
    md5_text = '.' + md5_text.replace('=', '')  # 对应 '.'
    return md5_text


print(encrypt("mwpAdi5bhl", "iNI90v1yqe"))

执行结果和浏览器是一致的
在这里插入图片描述

$(j_key).css(‘display’, ‘none’);

$(j_key).css(‘display’, ‘none’);
j_key 的值为 “.8fc852c2db0beaad90d801d6eebf3fee”

这段代码的作用是获取所有类名为 j_key 的标签
将这些标签的 display属性改为 none(不显示)

执行这段代码(页面正常排序了)

在这里插入图片描述

python 代码编写

请求数据,对获取到的数据做处理

这里有一个要考虑的地方,请求回来的数据都是以 base64 编码后的图片
浏览器可以直接将图片解析显示在页面上

定义字典作为映射

仔细观察,0-9 数字的对应的 base64值 都是一样的,所以可以定义一个字典做为映射

number_dict = {
	"": '0',
	"": '1',
	"": '2',
	"": '3',
	"": '4',
	"": '5',
	"": '6',
	"": '7',
	"": '8',
	"": '9',
}

解析返回的数据

解析数据的代码(图片的排序和偏移量有关系,所以将对应的 style 值也拿了)

def parse_data(data):
    number_dict = {
        "": '0',
        "": '1',
        "": '2',
        "": '3',
        "": '4',
        "": '5',
        "": '6',
        "": '7',
        "": '8',
        "": '9',

    }
    # 包含 .其实是匹配不上的,所以需要将 .替换掉
    class_value = encrypt(data['key'], data['value']).replace('.', '')  # 对应的 class 属性
    selector = Selector(data['info'])
    td_tag = selector.css('td')  # 拿到所有的 td 标签
    for td in td_tag:  # 逐个遍历 td 标签
        sub_list = []
        img_tag = td.css('img')  # 拿到所有的 img 标签
        for img in img_tag:  # 逐个遍历 img 标签
            style = img.css('::attr(style)').get().replace('left:', '').replace('px', '')  # 拿到 img 标签中的 style 属性值
            img_table = img.css('::attr(src)').get()  # 拿到 img 标签中的 src 属性值
            display = class_value in img.get()
            if not display:
                sub_list.append({
                    'number': number_dict[img_table],
                    'style': style,
                })
        print(sub_list)
        print('==============================')

数据过滤对了,但是不知道怎么进行排序

对返回的数据做排序

在这里插入图片描述

在这里插入图片描述
一个 td 标签的宽度为 45.56,约等于 46
一个 td 标签中最多存放 4 个数字
以 11.5 作为基数,依次将图片 style 的值进行相加 +11.5, +23, +34.5, +46
第 1 个标签的数字6 style的值 0 + 11.5 = 11.5
第 2 个标签的数字0 style的值 0 + 23 = 23
第 3 个标签的数字1 style的值 11.5 + 34.5 = 46
第 4 个标签的数字8 style的值 -11.5 + 46 = 34.5
再从小到大进行排序得出的结果就为 6081

完整的 python 代码

import requests
from parsel import Selector  # pip install parsel
from base64 import b64encode  # base64编码
from Crypto.Hash import MD5  # pip install pycryptodome

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36",
}
cookies = {
    "sessionid": "你的sessionid",
}


def encrypt(data_key, data_value):
    byte_value = (data_key + data_value).encode()  # 将 data_key + data_value 转换成字节,用于 base64编码
    b64enc = b64encode(byte_value).decode().replace('=', '')  # base64编码 返回的是字节
    md5_text = MD5.new(b64enc.encode()).hexdigest()  # md5 加密 返回的是字符串
    md5_text = '.' + md5_text  # 对应 '.'
    return md5_text


def send_math4(page):
    url = "https://match.yuanrenxue.cn/api/match/4"
    params = {
        "page": f"{page}"
    }
    response = requests.get(url, headers=headers, cookies=cookies, params=params)
    return response.json()


def parse_data(data):
    # 定义字典作为映射
    number_dict = {
        "": '0',
        "": '1',
        "": '2',
        "": '3',
        "": '4',
        "": '5',
        "": '6',
        "": '7',
        "": '8',
        "": '9',
    }

    # 解析返回的数据
    # 包含 .其实是匹配不上的,所以需要将 .替换掉
    class_value = encrypt(data['key'], data['value']).replace('.', '')  # 对应的 class 属性
    selector = Selector(data['info'])
    td_tag = selector.css('td')  # 拿到所有的 td 标签
    result_list = []
    for td in td_tag:  # 逐个遍历 td 标签
        number_list = []
        img_tag = td.css('img')  # 拿到所有的 img 标签
        for img in img_tag:  # 逐个遍历 img 标签
            style = img.css('::attr(style)').get().replace('left:', '').replace('px', '')  # 拿到 img 标签中的 style 属性值
            img_table = img.css('::attr(src)').get()  # 拿到 img 标签中的 src 属性值
            display = class_value in img.get()
            if not display:
                number_list.append({
                    'number': number_dict[img_table],
                    'style': style,
                })

        # 对返回的数据做排序
        # 以 11.5 作为基数,依次将图片 style 的值进行相加 +11.5, +23, +34.5, +46
        multi_num = 1
        result_ = [x for x in range(len(number_list))]
        for sort in number_list:
            num = multi_num * 11.5 + float(sort['style'])
            if num == 11.5:
                result_[0] = sort['number']
            if num == 23.0:
                result_[1] = sort['number']
            if num == 34.5:
                result_[2] = sort['number']
            if num == 46.0:
                result_[3] = sort['number']
            multi_num += 1
        result_list.append(int(''.join(result_)))
        print(''.join(result_), end='\t|')
    print('')
    return result_list


if __name__ == '__main__':
    for page in range(1):
        api_data = send_math4(page)
        result = parse_data(api_data)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值