主要过程如下:
1-配置环境2.7版本,安装好模块
2-cookies值修改 在chrome按F12
3-修改地区和岗位
4-经过上述修改即可爬取了
代码如下(添加cookies值,修改地区 ,岗位,可以直接爬取)
#!/usr/bin/python
#-*- coding:utf-8 -*-
#created 2018.11.11
import json
import requests
import xlwt
import time
from lxml import etree
#解决编码的问题
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
#获取存储职位信息的json对象,遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限
def get_json(url,datas):
my_headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Host': 'www.lagou.com',
'Origin': 'https://www.lagou.com',
'Referer': 'https://www.lagou.com/jobs/list_python?city=%E4%B8%8A%E6%B5%B7&cl=false&fromSearch=true&labelWords=&suginput=',
}
cookies = {
##修改cookies
}
time.sleep(8)
content = requests.post(url=url,cookies=cookies,headers=my_headers,data=datas)
# content.encoding = 'utf-8'
result = content.json()
print result
info = result['content']['positionResult']['result']
# print info
info_list = []
for job in info:
information = []
information.append(job['positionId']) #岗位对应ID
information.append(job['companyFullName']) #公司全名
information.append(job['companyLabelList']) #福利待遇
information.append(job['district']) #工作地点
information.append(job['education']) #学历要求
information.append(job['firstType']) #工作类型
information.append(job['formatCreateTime']) #发布时间
information.append(job['positionName']) #职位名称
information.append(job['salary']) #薪资
information.append(job['workYear']) #工作年限
info_list.append(information)
#将列表对象进行json格式的编码转换,其中indent参数设置缩进值为2
print json.dumps(info_list,ensure_ascii=False,indent=2)
print info_list
return info_list
def main():
page = int(raw_input('请输入你要抓取的页码总数:'))
# kd = raw_input('请输入你要抓取的职位关键字:')
# city = raw_input('请输入你要抓取的城市:')
info_result = []
title = ['岗位id','公司全名','福利待遇','工作地点','学历要求','工作类型','发布时间','职位名称','薪资','工作年限']
info_result.append(title)
for x in range(1,page+1):
url = 'https://www.lagou.com/jobs/positionAjax.json?&needAddtionalResult=false'
datas = {
'first': True,
'pn': x,
'kd': '运维工程师',
'city': '北京'
}
info = get_json(url,datas)
info_result = info_result+info
#创建workbook,即excel
workbook = xlwt.Workbook(encoding='utf-8')
#创建表,第二参数用于确认同一个cell单元是否可以重设值
worksheet = workbook.add_sheet('lagouzp',cell_overwrite_ok=True)
for i, row in enumerate(info_result):
# print row
for j,col in enumerate(row):
# print col
time.sleep(1)
worksheet.write(i,j,col)
workbook.save('lagouzp.xls')
if __name__ == '__main__':
main()
5-爬取结果如下