今天我们打算爬取一下字节跳动的招聘信息:
我们打开开发者工具并访问:
https://jobs.bytedance.com/experienced/position?keywords=&category=&location=&project=&type=&job_hot_flag=¤t=1&limit=10
这次访问监控到的数据很多,其中这个posts接口才有我们需要的json数据:
观察响应头发现一个重要参数csrf:
说明字节跳动的网站具备csrf校验的功能,后文将再介绍如何获取到这个csrf的token。
查看请求参数:
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:810735403
参数包装函数
为了正常爬取时的方便,我们需要先将上面需要的参数,组织成python能够识别的字典形式。直接复制粘贴有很多需要加双引号的地方,但我们可以编程解决这个问题。
首先,定义一个处理函数:
import re
def warp_heareder(s):
print("{")
lines = s.splitlines()
for i, line in enumerate(lines):
k, v = line.split(": ")
if re.search("[a-zA-Z]", k):
k = f'"{k}"'
if re.search("[a-zA-Z]", v):
v = f'"{v}"'
print(f" {k}: {v},")
print("}")
处理请求头:
处理post请求数据:
csrf校验值获取
首先,清空cookie:
然后刷新页面,查看网络请求的抓包情况:
找啊找,终于找到了一个set-cookie的响应头,而且这个设置cookie参数包括了csrf的设置。那么这个接口我们就可以用来作为获取csrf校验值的接口。
使用session保存响应头设置的cookie:
import requests
session = requests.session()
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
'Origin': 'https://jobs.bytedance.com',
'Referer': f'https://jobs.bytedance.com/experienced/position?keywords=&category=&location=&project=&type=&job_hot_flag=¤t=1&limit=10'
}
data = {
"portal_entrance": 1
}
url = "https://jobs.bytedance.com/api/v1/csrf/token"
r