[2021.7]猿人学 | 爬虫攻防大赛 | 第三题

1. 抓包分析

  跟之前一样,还是建议大家使用无痕模式抓包分析,防止其他干扰因素影响

在这里插入图片描述
在这里插入图片描述
这里依然是通过ajax的请求来获取数据
继续利用之前的思路,我们先点开以下界面,查看请求通过哪些JS,如下所示:
在这里插入图片描述

2.分析JS

点击上图示意的JS,会跳转到相应的JS位置,这里的代码是没有混淆的,只需要通过代码美化即可,美化后的代码复制到pycharm中,进行简单的分析:
在这里插入图片描述
发现在ajax传输数据时,定义了两个函数,一个是beforeSend,英文翻译很好理解:在发送请求之前;另一个是success,猜测是成功之后才会返回数据。其中beforeSend函数中有一个/jssm的请求,我们回过头去看抓包中有没有这个请求
在这里插入图片描述
发现发送一次请求数据之前,都会请求一次jssm这个链接,我们来查看一下它的请求头和响应
在这里插入图片描述
发现每一个jssm都会有一个set-cookie的操作,而且每个set-cookie的值都是一样的,也没有什么的变化。这里比较奇怪,那这个jssm就没什么作用了啊,接下来我们写代码直接请求数据url地址,看看能否成功。

3.编写脚本

python代码如下:

import requests

headers = {
    'Accept':'*/*',
    'Accept-Encoding':'gzip, deflate',
    'Accept-Language':'zh-CN,zh;q=0.9',
    'Cache-Control':'no-cache',
    'Connection':'keep-alive',
    'Content-Length':'0',
    'Cookie':'Hm_lvt_9bcbda9cbf86757998a2339a0437208e=1626934101; Hm_lvt_c99546cf032aaa5a679230de9a95c7db=1626934101; qpfccr=true; no-alert3=true; tk=-8866252899135507225; sessionid=n77r98hsyy2uqanzfswpp1zg5te274o7; Hm_lpvt_9bcbda9cbf86757998a2339a0437208e=1626934118; Hm_lpvt_c99546cf032aaa5a679230de9a95c7db=1626934119',
    'Host':'match.yuanrenxue.com',
    'Origin':'http',
    'Pragma':'no-cache',
    'Referer':'http',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36',
}

url = 'http://match.yuanrenxue.com/api/match/3'

res = requests.get(url,headers,verify=False)
print(res.text)

结果给我们返回了一串JS代码,我们把这串代码美化后放到控制台中执行一下。结果如下:
在这里插入图片描述
好吧,发现什么都没有,说明直接访问是不行的,结合我们之前发现的beforesend中的jssm,以及每次请求数据前,都会请求一次jssm,我们猜测,必须要先post访问(这里是抓包发现的post请求)jssm后,才有权限请求到数据,这样的话我们来试一下是否可行。
在这里插入图片描述
接下来可以写完整的脚本了,代码如下:

import requests
import pandas as pd

def get_data(page_num):
    session = requests.session()

    headers = { 'Connection': 'keep-alive',
                'User-Agent': 'yuanrenxue.project',
                'Accept': '*/*',
                'Origin': 'http://match.yuanrenxue.com',
                'Referer': 'http://match.yuanrenxue.com/match/3',
                'Accept-Encoding': 'gzip, deflate',
                'Accept-Language': 'zh-CN,zh;q=0.9,en-GB;q=0.8,en;q=0.7',
               }

    url = 'http://match.yuanrenxue.com/jssm'
    session.headers = headers
    session.post(url=url)

    url_api = 'http://match.yuanrenxue.com/api/match/3?page={}'.format(page_num)
    res = session.get(url=url_api).json()
    print(res)
    data = [i['value']for i in res['data']]
    return data


if __name__ == '__main__':
    data = []
    for i in range(1,2):
        print(i)
        data_list = get_data(i)
        print(data_list)
        data.extend(data_list)
    count = pd.value_counts(data)
    print(count)

结果如下:

在这里插入图片描述

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码魔法师!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值