拉勾网数据爬取
爬取内容
北京数据挖掘方向的岗位数据
方案
正常的
https://www.lagou.com/jobs/list_数据挖掘?px=new&city=上海#order
上面的URL是查询上海数据挖掘岗位的信息并按照最新发布排序
通过抓包分析请求的真正URL是这个
https://www.lagou.com/jobs/positionAjax.json?px=new&city=上海&needAddtionalResult=false&isSchoolJob=0
提交的数据如下
返回的数据的格式如下
太麻烦了使用移动端ua (很赞)
移动端的api往往比pc端的简单
使用360极速浏览器的魔变
输入网址查看移动端的拉勾网界面,设置查询条件如下
然后用F12抓包分析真正的URL
发送数据的表单
获得数据格式
成果展示
脚本
"""
title:抓取拉勾网的数据
time:2018-01-22
author:No.96
"""
import requests
import time
import random
import csv
# 移动端头部信息
useragents = [
"Mozilla/5.0 (iPhone; CPU iPhone OS 9_2 like Mac OS X) AppleWebKit/601.1 (KHTML, like Gecko) CriOS/47.0.2526.70 Mobile/13C71 Safari/601.1.46",
"Mozilla/5.0 (Linux; U; Android 4.4.4; Nexus 5 Build/KTU84P) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0)"
]
cookies