数据分析案例分享,仅供学习使用,数据量比较少,数据源为拉钩7月8日,广州片区、数据分析岗位,就是这么少,没错。)
需求
对爬取的数据进行清洗,通过python进一步分析。
工具
python3、pycharm
数据清洗
先分析下目标文件
共172条数据,
需要处理
工作经验:不限设置为0,例:1-3年 取(1+3)/2即1.5年
工资:按实际情况区间前25%比较合理,例:10K-15K,取11.25K
职位内容包含了实习生的数据,参考意义较少,也要去掉。
import pandas as pd
df = pd.read_csv('lagou8.4jobs.csv',encoding='utf-8-sig')
#print(df.describe())
#共175条信息,其中包含了实习信息需要清洗掉
df.drop(df[df['职位名称'].str.contains('实习')].index,inplace=True)
#print(df.describe())
#67条
pattern =