1.爬虫目的
爬取我感兴趣的职位,并对其做分析,根据数据分析结果对自己找工作做一个职业规划
2.写代码
这次是简单的requests+BeautifulSoup+panda库爬虫
先在拉勾网输入自己想找工作的关键字,然后右键检查,在Network—XHR下找到职位信息,经根据Header编写代码
代码:
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import sqlite3
def main():
headers = {
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/47.0.2526.106 Safari/537.36',
'Host': 'www.lagou.com',
'Origin': 'https://www.lagou.com',
'Referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98?px=new&city=%E5%85%A8%E5%9B%BD',
'X-Anit-Forge-Code': '0',
'X-Anit-Forge-Token': None,
'X-Requested-With': 'XMLHttpRequest'
}
positions = []
###########分析页面发现,页面是根据pn参数分页的,根据这个参数定义for循环来爬取多页信息########
for x in range(1,31):
form_data = {
'first': 'true',
'pn': x,
'kd': "数据挖掘"
}
re = requests.post('https://www.lagou.com/jobs/positionAjax.json?px=new&needAddtionalResult=false',
headers=headers, data=form_data)
json_result = re.json()
page_positions = json_result['content']['positionResult']['result']
positions.extend(page_positions)
#######将数据保存到excel表中#############################
df = pd.DataFrame(positions)
df.to_excel('Position30.xlsx', index=False)
3.简单的结果可视化
结果发现IT行业由北上广已经变成北上深趋势了,并且北京的职位占了太大优势,这也是北漂那么多的原因之一吧,机会太多了。
在数据挖掘领域,boss们更喜欢经验丰富的攻城狮,一般工作3-5年后最吃香~
在分析薪水的时候,人为把1-5k定义为低薪,5-15k为合适工资,15-30k为较高工资水平,30k以上为高薪水平。结果发现数据挖掘攻城狮的薪水水平还是不错的,大部分月薪在15-30k范围内~北京的高薪职位出现了压倒性优势,北漂的原因之二吧~
学历虽然要求不高,但是基本要求是本科,其次是硕士。所以IT行业只看技术不看学历的谣言不攻自破了~
初步分析,分析得比较简略~ 目前的数据可视化工具还是excel后期学了R语言希望能画出能美观的数据分析图。