python拉勾网爬虫实战

1.爬虫目的

爬取我感兴趣的职位,并对其做分析,根据数据分析结果对自己找工作做一个职业规划

2.写代码

这次是简单的requests+BeautifulSoup+panda库爬虫

先在拉勾网输入自己想找工作的关键字,然后右键检查,在Network—XHR下找到职位信息,经根据Header编写代码

代码:

import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import sqlite3

def main():
headers = {
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/47.0.2526.106 Safari/537.36',
        'Host': 'www.lagou.com',
        'Origin': 'https://www.lagou.com',
        'Referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98?px=new&city=%E5%85%A8%E5%9B%BD',
        'X-Anit-Forge-Code': '0',
        'X-Anit-Forge-Token': None,
        'X-Requested-With': 'XMLHttpRequest'
    }
    positions = []
###########分析页面发现,页面是根据pn参数分页的,根据这个参数定义for循环来爬取多页信息########
for x in range(1,31):
    form_data = {
        'first': 'true',
        'pn': x,
        'kd': "数据挖掘"
    }
    re = requests.post('https://www.lagou.com/jobs/positionAjax.json?px=new&needAddtionalResult=false',
                       headers=headers, data=form_data)
    json_result = re.json()
    page_positions = json_result['content']['positionResult']['result']
    positions.extend(page_positions)

#######将数据保存到excel表中#############################
 df = pd.DataFrame(positions)
 df.to_excel('Position30.xlsx', index=False)

3.简单的结果可视化

结果发现IT行业由北上广已经变成北上深趋势了,并且北京的职位占了太大优势,这也是北漂那么多的原因之一吧,机会太多了。

在数据挖掘领域,boss们更喜欢经验丰富的攻城狮,一般工作3-5年后最吃香~

在分析薪水的时候,人为把1-5k定义为低薪,5-15k为合适工资,15-30k为较高工资水平,30k以上为高薪水平。结果发现数据挖掘攻城狮的薪水水平还是不错的,大部分月薪在15-30k范围内~北京的高薪职位出现了压倒性优势,北漂的原因之二吧~

学历虽然要求不高,但是基本要求是本科,其次是硕士。所以IT行业只看技术不看学历的谣言不攻自破了~ 

初步分析,分析得比较简略~ 目前的数据可视化工具还是excel后期学了R语言希望能画出能美观的数据分析图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值