上文写了一章基础爬虫,现在带上点简单的js逆向案例,源自某内部平台!
一:抓包看载荷
请求头参数如图:一个时间戳,一个md5加密(长度32位)一般是md5
二: safe
全局搜索safe,在如下断点:
-
safe 头用于携带安全验证信息,它的值是通过对字符串 '9622' 和当前时间戳做一系列加密运算得到的,具体加密方法是先将 '9622' 和当前时间戳拼接在一起,然后将该字符串进行 base64 编码,并通过 MD5 算法生成长度为 32 的密文。
-
timestamp 头则仅携带了当前的 Unix 时间戳(精度为秒),表示请求发起的时间
三 :python实现:
定义md5加密方法:
def md5_value(key):
# 创建一个hashlib.md5的对象
input_word = hashlib.md5()
# 将参数key以utf-8的编码形式传入给input_word进行加码
input_word.update(key.encode('utf-8'))
# 获取加密后的16进制,转化为小写字母格式
sign = (input_word.hexdigest()).lower()
# 返回加密结果
return sign
同理定义一个base64方法:
def base64_value(key):
# 将输入字符串以 UTF-8 编码形式传入 base64.b64encode() 方法中进行编码
base64_a_timestamp = base64.b64encode(key.encode('utf-8'))
# 将编码结果转化为字符串类型,并返回该字符串
base64_str = str(base64_a_timestamp, 'utf-8')
return base64_str
最后构造请求函数,实现对数据的抓取:
def challenge1(page, safe, timestamp):
url = 'https://www.python-spider.com/api/challenge1'
headers = {
'safe': safe,
'timestamp': timestamp,
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
datas = {
'page': page
}
response = requests.post(url, headers=headers, data=datas)
return response.json()
def run():
"""
var a = '9622';
var timestamp = String(Date.parse(new Date()) / 1000);
var tokens = hex_md5(window.btoa(a + timestamp));
:return:
"""
# 初始值
data_num = 0
for page in range(1, 101):
timestamp = str(int(time.time())) # 10位时间戳
a_timestamp = '9622' + timestamp # var timestamp
base64_str = base64_value(a_timestamp) # window.btoa(a + timestamp)
safe = md5_value(base64_str) # var tokens
# 返回值
res_dict = challenge1(page, safe, timestamp)
data_list = res_dict.get('data')
for data in data_list:
data_num += int(data.get('value'))
logger.info(data_num)
if __name__ == '__main__':
run()
四:查看值: