数据清洗及简单分析

本文分享了一次数据分析案例,基于拉勾网2019年7月8日广州地区的数据分析岗位数据。内容包括数据清洗(如工作经验处理、薪资标准化、实习生数据剔除)和初步分析,揭示了工作经验平均值、薪资中位数及分布等信息。
摘要由CSDN通过智能技术生成

数据分析案例分享,仅供学习使用,数据量比较少,数据源为拉钩7月8日,广州片区、数据分析岗位,就是这么少,没错。)

需求

对爬取的数据进行清洗,通过python进一步分析。

工具

python3、pycharm

数据清洗

先分析下目标文件
在这里插入图片描述
共172条数据,
需要处理
工作经验:不限设置为0,例:1-3年 取(1+3)/2即1.5年
工资:按实际情况区间前25%比较合理,例:10K-15K,取11.25K
职位内容包含了实习生的数据,参考意义较少,也要去掉。

import pandas as pd
df = pd.read_csv('lagou8.4jobs.csv',encoding='utf-8-sig')
#print(df.describe())
#共175条信息,其中包含了实习信息需要清洗掉
df.drop(df[df['职位名称'].str.contains('实习')].index,inplace=True)
#print(df.describe())
#67条
pattern = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值