爬取拉勾网招聘信息
1、在网页源代码中搜索信息,并没有搜到,判断网页信息使用Ajax来实现的
2、查看网页中所需的数据信息,返回的是JSON数据;
3、条件为北京+数据分析师的公司一共40087家,而实际拉勾网展示的数据只有
15条/页 * 30页 = 450条,所以需要判断想要展示的数据是否能在30页展示完成,超过30页则获取30页数据
4、获取请求头与Form Data数据
5、将数据以CSV文件存储(首先创建文件,可以最后将表头信息写入)
with open('lagou.csv', 'w', newline = '', encoding='utf-8') as csvfile:
fieldnames = ['businessZones', 'companyFullName', 'companyLabelList', 'companyShortName', 'companySize', 'district',
'education', 'financeStage', 'firstType', 'industryField', 'industryLables', 'linestaion',
'positionAdvantage', 'positionName', 'publisherId', 'salary', 'secondType', 'stationname', 'workYear']
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
writer.writeheader()
6、源代码展示
import json
import requests
import math