目标:采集这5页的全部数字,计算加和并提交结果
老规矩F12,打开控制台。开始上下左右检查,看是不是cookies校验、是不是headers加密、是不是参数加密、是不是响应加密。显然这道题都不是,这道题是比较少见得css样式干扰。其返回值并不是那种单纯得数据,其数据在js得info里面。我们得提出了分析。
通过分析,我们可知,其加载得数字是经过排序得。然后我们深入分析,我们会发现规律。
它就是css样式的设计来进行排序的。我们只需要对其分析,写出算法便可。排序只是问题之一。
排序算法:自取
def sortNum(self, num_list):
num = 0
length = len(num_list) - 1
for i, d in enumerate(num_list):
n = d[0]
num += n * 10 ** (length - (i + int(eval(d[1]) / 11.5)))
return num
其数据格式:[[0, '11.5'], [7, '23.0'], [2, '-23.0'], [7, '-11.5']]
然后,就是我们得进行扣代码。因为有的td标签有很多的img标签。各位千万别被display迷惑了。可以去观察一下其返回的值,他们可是没有display: none的。这是后面加上去的。
通过xhr断点,进入代码。很快就行找到加密位置。发现一看,是md5。这时候得测试是不是正常得md5。
我们通过加密1看看,是不是正常得md5。很明显,两个加密一样。所以我们直接得扣其加密代码。这道题得加密代码扣起来很简单。
得到加密函数后,接下来就是怎么处理图像,这个我忙了很久,开始是想训练个模型,但是太麻烦。然后又想找其他生成好的模型识别,但是我发现很拉跨,再我焦虑之时,突然灵光一闪。其图像是重复利用得,直接用上面得组成一个hash字典便可。不想直接去一个一个找的,我直接放在下面。再多嘴一句:其src属性里的值,就是base64格式的图片。
nums_dict = {
"": 9,
"": 8,
"": 4,
"": 6,
"": 1,
"": 0,
"": 2,
"": 7,
"": 3,
"": 5
}
待上面三步具成,我们就可以构建python代码了。
import requests
from lxml import etree
import execjs
from lxpy import get_ua
class FP:
def firstRequests(self, page):
headers = {
"accept": "application/json, text/javascript, */*; q=0.01",
"accept-language": "zh-CN,zh;q=0.9",
"cache-control": "no-cache",
"pragma": "no-cache",
"priority": "u=0, i",
"referer": "https://match.yuanrenxue.cn/match/4",
"sec-ch-ua": "\"Google Chrome\";v=\"125\", \"Chromium\";v=\"125\", \"Not.A/Brand\";v=\"24\"",
"sec-ch-ua-mobile": "?0",
"sec-ch-ua-platform": "\"Windows\"",
"sec-fetch-dest": "empty",
"sec-fetch-mode": "cors",
"sec-fetch-site": "same-origin",
"user-agent": get_ua()['user-agent'],
"x-requested-with": "XMLHttpRequest"
}
url = "https://match.yuanrenxue.cn/api/match/4"
params = {
"page": str(page)
}
response = requests.get(url, headers=headers, params=params)
tree = etree.HTML(response.json()['info'])
key = response.json()['key']
value = response.json()['value']
js = execjs.compile(open("four.js", "r", encoding='utf-8').read())
md5_class = js.call("md5_data", key, value)
return tree, md5_class
def pictureRecognition(self, image_url):
nums_dict = {
"": 9,
"": 8,
"": 4,
"": 6,
"": 1,
"": 0,
"": 2,
"": 7,
"": 3,
"": 5
}
return nums_dict[image_url]
def sortNum(self, num_list):
num = 0
length = len(num_list) - 1
for i, d in enumerate(num_list):
n = d[0]
num += n * 10 ** (length - (i + int(eval(d[1]) / 11.5)))
return num
def analyseInfo(self, tree: etree.HTML, md5_class: str):
td_list = tree.xpath("//td")
sums_all = 0
for td in td_list:
img_list = td.xpath(".//img")
num_list = []
for img in img_list:
class_ = img.xpath(".//@class")[0].split(" ")[-1]
img_url = img.xpath(".//@src")[0]
style = img.xpath(".//@style")[0].split(":")[-1].split("p")[0]
if class_ != md5_class:
num_list.append([self.pictureRecognition(img_url), style])
all = self.sortNum(num_list)
sums_all += all
print(all, end="\t")
print()
return sums_all
def main(self):
sums_all_times = 0
for page in range(1, 6):
print("============== the", page, " page================")
tree, md5_class = self.firstRequests(page)
time_val = self.analyseInfo(tree, md5_class)
sums_all_times += time_val
print("sum of all times: ", sums_all_times)
if __name__ == '__main__':
fp = FP()
fp.main()
结果如下: