1. 抓包分析
跟之前一样,还是建议大家使用无痕模式抓包分析,防止其他干扰因素影响
这里依然是通过ajax的请求来获取数据
继续利用之前的思路,我们先点开以下界面,查看请求通过哪些JS,如下所示:
2.分析JS
点击上图示意的JS,会跳转到相应的JS位置,这里的代码是没有混淆的,只需要通过代码美化即可,美化后的代码复制到pycharm中,进行简单的分析:
发现在ajax传输数据时,定义了两个函数,一个是beforeSend,英文翻译很好理解:在发送请求之前;另一个是success,猜测是成功之后才会返回数据。其中beforeSend函数中有一个/jssm的请求,我们回过头去看抓包中有没有这个请求
发现发送一次请求数据之前,都会请求一次jssm这个链接,我们来查看一下它的请求头和响应
发现每一个jssm都会有一个set-cookie的操作,而且每个set-cookie的值都是一样的,也没有什么的变化。这里比较奇怪,那这个jssm就没什么作用了啊,接下来我们写代码直接请求数据url地址,看看能否成功。
3.编写脚本
python代码如下:
import requests
headers = {
'Accept':'*/*',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'Cache-Control':'no-cache',
'Connection':'keep-alive',
'Content-Length':'0',
'Cookie':'Hm_lvt_9bcbda9cbf86757998a2339a0437208e=1626934101; Hm_lvt_c99546cf032aaa5a679230de9a95c7db=1626934101; qpfccr=true; no-alert3=true; tk=-8866252899135507225; sessionid=n77r98hsyy2uqanzfswpp1zg5te274o7; Hm_lpvt_9bcbda9cbf86757998a2339a0437208e=1626934118; Hm_lpvt_c99546cf032aaa5a679230de9a95c7db=1626934119',
'Host':'match.yuanrenxue.com',
'Origin':'http',
'Pragma':'no-cache',
'Referer':'http',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36',
}
url = 'http://match.yuanrenxue.com/api/match/3'
res = requests.get(url,headers,verify=False)
print(res.text)
结果给我们返回了一串JS代码,我们把这串代码美化后放到控制台中执行一下。结果如下:
好吧,发现什么都没有,说明直接访问是不行的,结合我们之前发现的beforesend中的jssm,以及每次请求数据前,都会请求一次jssm,我们猜测,必须要先post访问(这里是抓包发现的post请求)jssm后,才有权限请求到数据,这样的话我们来试一下是否可行。
接下来可以写完整的脚本了,代码如下:
import requests
import pandas as pd
def get_data(page_num):
session = requests.session()
headers = { 'Connection': 'keep-alive',
'User-Agent': 'yuanrenxue.project',
'Accept': '*/*',
'Origin': 'http://match.yuanrenxue.com',
'Referer': 'http://match.yuanrenxue.com/match/3',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9,en-GB;q=0.8,en;q=0.7',
}
url = 'http://match.yuanrenxue.com/jssm'
session.headers = headers
session.post(url=url)
url_api = 'http://match.yuanrenxue.com/api/match/3?page={}'.format(page_num)
res = session.get(url=url_api).json()
print(res)
data = [i['value']for i in res['data']]
return data
if __name__ == '__main__':
data = []
for i in range(1,2):
print(i)
data_list = get_data(i)
print(data_list)
data.extend(data_list)
count = pd.value_counts(data)
print(count)
结果如下: