1.待分析的数据
是从智联招聘平台上手动爬取的python数据分析职位的相关信息,表的关键字分别为“薪金”、“学历”、“经验”。为后续数据分析做准备。数据部分截图,所示
智联招聘平台爬取‘python数据分析’职位,记录总共有500多条,其中包括一小部分重复发布的记录。考虑到数据量本身比较小,在此不对重复数据进行筛选。对关键字“学历”、“经验”,分别进行统计,发现其对应频率分别如下:
发现学历一栏“不限”和“中专”相对比较少,打印出内容,发现学历为“不限”的工资与学历“本科”比较接近,“中专”工资与“大专”比较接近,并无多大区别,因此修改dataframe中,将”不限”修改为“本科”,“中专”修改为“大专”。调用pandas的replace()函数
details.replace({'education': '不限'}, '本科', inplace=True) details.replace({'education': '中专'}, '大专', inplace=True)
details为原始数据表。注意,如果不想建立dataframe副本,可以设置inplace=True,直接修改原始dataframe.
同样道理,“无经验”,”1年以下“的工资和经验"不限”接近,同样可以合并。
details.replace({'experience': '无经验'}, '不限', inplace=True) # 可以这样做,因为不影响数据使用 details.replace({'experience': '1年以下'}, '不限', inplace=True)
“10年以上”,在本记录中只有一条数据,而且工资与其他差别很大,若将其并入“5-10”年,会直接拉高平均记录值,因此将其舍弃。
2.数据处理。
数据处理主要是分离将工资一栏分离得到,最低工资,最高工资,并分别将最低工资平均值,最高工资平均值,添加到学历,经验要求相同,工资为“面议”。为后续进行工资与学历,经验的关系做准备。
先把同等学历,经验要求的