pandas分析sql文件:职位分布情况

pandas对多种数据具有强大的分析处理功能,现以一个sql招聘数据进行介绍如何进行分析职业分布情况
题目如下:
1.统计不同学历的职位分布
2.统计不同学历下薪资待遇
3.统计python不同就业方向的分布(web,爬虫,数据分析

首先我们连接上sql并创建DataFrame对象

import pandas as pd
import sqlite3

conn = sqlite3.connect("recruit.db")
df = pd.read_sql("select * from recruit",conn)
df.info()

统计不同学历的职位分布

我们先查看学历种类

df['education'].unique()

在这里插入图片描述
我们可以看到学历种类比较杂乱,我们将统招本科和本科及以上归于本科,其他含有“招”字的归于其他类:

df.loc[df['education'] == '本科及以上','education'] = '本科'
df.loc[df['education'] == '统招本科','education'] = '本科'
df.loc[df['education'].str.contains("招"),"education"] = "其他"

然后执行:

df['education'].value_counts()

统计不同学历下薪资待遇

先查看薪资种类

df['min_salary'].unique()

我们可以看到有“面议”工资需要处理,我们取出薪资中位数替换“面议”

real_min_salary = df[df['min_salary'] != '面议']
real_min_salary['min_salary'].apply(lambda x:float(x)).median()

得到除面议工资外工资中位数是10000,因此用10000替换面议

df.loc[df['min_salary'] == '面议','min_salary'] = '10000'
df['min_salary'] = df['min_salary'].apply(lambda x:float(x))
df.loc[:,['education','min_salary']].groupby('education').mean()

统计python不同就业方向的分布

先查看就业方向种类job_detail

df['job_detail'].unique()

我们可以看到python就业方向包含django,flask,restful
因此我们用contains写命令:

df[df['job_detail'].str.contains('flask') | df['job_detail'].str.contains('django')|df['job_detail'].str.contains('restful')]
发布了28 篇原创文章 · 获赞 1 · 访问量 1219
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 数字20 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览