猿人学第四题

**

猿人学系列保姆级教程

**

  • 第四题*
    链接http://match.yuanrenxue.com/match/4
    1 如图,我们发现当我们点击下一页接口时返回的是一个json数据
    在这里插入图片描述
    2 很明显,返回数据没有我们在页面看到的数据.但是返回的数据info好像是一个html字符串.我们不妨把它保存成html文件然后用浏览器打开看下.结果如下.

在这里插入图片描述
3 进一步研究我们发现其实我们页面看到的每一个数据对应的是一个base64的图片,这样我们就可以把数字跟图片的映射关系找出来(后面代码会展示)
在这里插入图片描述
4 但很明显这里的数据是连在一起的,跟我们在页面二看到的2007 2001不一样.其实我们有点前端知识应该就会明白这样改试通过css样式处理的.这样我们就要研究下代码逻辑了.通过研究请求逻辑我们发现下面代码.
在这里插入图片描述

5 这段代码很明显,意思就是当请求成功后将返回结果的info加到class="number"的标签下,然后对属性为j_key的元素添加display = none的属性.其中j_key试通过将返回值的key跟data进行MD5加密然后去点=号获得的.最后还要注意一点,每个img还有一个style属性,这个是对位置进行了偏移.
分析到这里应该整个逻辑很明白了,结果代码如下

import base64
import hashlib
from lxml import etree
import requests

class AB():

    def __init__(self):
        self.num_dict = {
            "": "0",
            "": "1",
            "": "2",
            "": "3",
            "": "4",
            "": "5",
            "": "6",
            "": "7",
            "": "8",
            "": "9"
        }

    def get_response(self, url):
        payload = {}
        headers = {
            "Connection": "keep-alive",
            "Accept": "application/json, text/javascript, */*; q=0.01",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
            "X-Requested-With": "XMLHttpRequest",
            "Referer": "http://match.yuanrenxue.com/match/4",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8"
        }

        response = requests.get(url, headers=headers, data=payload)
        res_json = response.json()
        return res_json

    def get_result(self, res_json):
        info = res_json.get("info")
        key = res_json.get('key')
        value = res_json.get('value')
        j_key = self.getNoneClassNumber(key, value)  # 获取j_key用来做display为none判断
        html_tree = etree.HTML(info)
        td_list = html_tree.xpath('//td')  # 每一个td块就是一个数据
        for td in td_list:
            num_dict_list = []
            img_list = td.xpath('./img')
            for img in img_list:
                num = self.num_dict[img.xpath('./@src')[0]]
                cla = img.xpath('./@class')[0]
                if j_key in cla:  # 当display为none时该数据不展示
                    pass
                else:
                    temp = {}
                    style = float(img.xpath('./@style')[0].replace('left:', '').replace('px', ''))
                    temp[num] = style
                    num_dict_list.append(temp)   # 记录数据直及偏移量
            num_list = ['', '', '', ''] # 可以确定每个数据都是4位
            for index, val in enumerate(num_dict_list):
                tem = list(val.values())[0]
                key = int(index + tem / 11.5)
                num_list[key] = list(val.keys())[0]
            print(''.join(num_list))

    def getNoneClassNumber(self, key,value):
        s=key+value
        #base64编码
        byte_btoa=base64.b64encode(s.encode('utf-8'))
        #转为字符串形式
        str_btoa=str(byte_btoa,'utf-8')
        #替换“=”字符
        sub_equal=str_btoa.replace("=", '')
        #MD5编码,得到最终的j_key
        hex_md5=hashlib.md5(sub_equal.encode())
        img_number=hex_md5.hexdigest()
        return img_number



if __name__ == '__main__':
    ab = AB()
    for i in range(1,4):
        url = "http://match.yuanrenxue.com/api/match/4?page={}".format(i)
        res = ab.get_response(url)
        ab.get_result(res)
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值