[2021.7]猿人学 | 爬虫攻防大赛 | 第三题_猿人学-android端爬虫比赛第三关-CSDN博客

本文链接：https://blog.csdn.net/lijiamingccc/article/details/118998009

1. 抓包分析

  跟之前一样，还是建议大家使用无痕模式抓包分析，防止其他干扰因素影响

在这里插入图片描述

这里依然是通过ajax的请求来获取数据
继续利用之前的思路，我们先点开以下界面，查看请求通过哪些JS,如下所示：

2.分析JS

点击上图示意的JS，会跳转到相应的JS位置，这里的代码是没有混淆的，只需要通过代码美化即可，美化后的代码复制到pycharm中，进行简单的分析：
在这里插入图片描述
发现在ajax传输数据时，定义了两个函数，一个是beforeSend，英文翻译很好理解：在发送请求之前；另一个是success，猜测是成功之后才会返回数据。其中beforeSend函数中有一个/jssm的请求，我们回过头去看抓包中有没有这个请求
在这里插入图片描述
发现发送一次请求数据之前，都会请求一次jssm这个链接，我们来查看一下它的请求头和响应

发现每一个jssm都会有一个set-cookie的操作，而且每个set-cookie的值都是一样的，也没有什么的变化。这里比较奇怪，那这个jssm就没什么作用了啊，接下来我们写代码直接请求数据url地址，看看能否成功。

3.编写脚本

python代码如下：

import requests

headers = {
    'Accept':'*/*',
    'Accept-Encoding':'gzip, deflate',
    'Accept-Language':'zh-CN,zh;q=0.9',
    'Cache-Control':'no-cache',
    'Connection':'keep-alive',
    'Content-Length':'0',
    'Cookie':'Hm_lvt_9bcbda9cbf86757998a2339a0437208e=1626934101; Hm_lvt_c99546cf032aaa5a679230de9a95c7db=1626934101; qpfccr=true; no-alert3=true; tk=-8866252899135507225; sessionid=n77r98hsyy2uqanzfswpp1zg5te274o7; Hm_lpvt_9bcbda9cbf86757998a2339a0437208e=1626934118; Hm_lpvt_c99546cf032aaa5a679230de9a95c7db=1626934119',
    'Host':'match.yuanrenxue.com',
    'Origin':'http',
    'Pragma':'no-cache',
    'Referer':'http',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36',
}

url = 'http://match.yuanrenxue.com/api/match/3'

res = requests.get(url,headers,verify=False)
print(res.text)

结果给我们返回了一串JS代码，我们把这串代码美化后放到控制台中执行一下。结果如下：
在这里插入图片描述
好吧，发现什么都没有，说明直接访问是不行的，结合我们之前发现的beforesend中的jssm，以及每次请求数据前，都会请求一次jssm，我们猜测，必须要先post访问（这里是抓包发现的post请求）jssm后，才有权限请求到数据，这样的话我们来试一下是否可行。
在这里插入图片描述
接下来可以写完整的脚本了，代码如下：

import requests
import pandas as pd

def get_data(page_num):
    session = requests.session()

    headers = { 'Connection': 'keep-alive',
                'User-Agent': 'yuanrenxue.project',
                'Accept': '*/*',
                'Origin': 'http://match.yuanrenxue.com',
                'Referer': 'http://match.yuanrenxue.com/match/3',
                'Accept-Encoding': 'gzip, deflate',
                'Accept-Language': 'zh-CN,zh;q=0.9,en-GB;q=0.8,en;q=0.7',
               }

    url = 'http://match.yuanrenxue.com/jssm'
    session.headers = headers
    session.post(url=url)

    url_api = 'http://match.yuanrenxue.com/api/match/3?page={}'.format(page_num)
    res = session.get(url=url_api).json()
    print(res)
    data = [i['value']for i in res['data']]
    return data


if __name__ == '__main__':
    data = []
    for i in range(1,2):
        print(i)
        data_list = get_data(i)
        print(data_list)
        data.extend(data_list)
    count = pd.value_counts(data)
    print(count)

结果如下：

在这里插入图片描述