一、熟悉数据集
数据集来源:IBM HR Analytics员工流失和绩效,在kaggle下载,是由IBM数据科学家创建的虚构数据集,主要目的是演示用于员工流失的Watson分析工具。因此,数据集只用于测试自己需要员工数据的模型和数据分析,不用于得出现实结论。
数据大小:1470行*35列。
数据字段含义:age(年龄)Attrition(摩擦)BusinessTravel(出差)DailyRate(日产出)DistanceFromHome(上班距离)Department(部门)Education(学历)EducationField(专业)EnvironmentSatisfaction(环境满意度)Gender(性别)HourlyRate(小时工资)JobInvolvement(敬业度)JobLevel(职业等级)JobRole(工作角色)JobSatisfaction(工作满意度)MaritalStatus(婚姻状况)MonthlyIncome(月收入)MonthlyRate(月支出)OverTime(是否加班)PercentSalaryHike(工资上涨率)PerformanceRating(业绩评估)RelationshipSatisfaction(关系满意度)StockOptionLevel(期权)TotalWorkingYears(工作时间)YearsAtCompany(入职时间)TrainingTimesLastYear(上年培训次数)WorkLifeBalance(工作生活平衡度)YearsSinceLastPromotion(上次晋升时间)YearsInCurrentRole(当前职务时间)YearsInCurrentRole(当前职级)
二、想得到的描述信息
1、4种满意度员工的产出情况和绩效评估等级。
2、出差、产出、上班距离、学历、环境满意度、工资、职业等级、晋升时间等因素的工作满意度情况。
3、有摩擦和无摩擦两种情况下员工满意度、环境满意度、敬业度、产出、绩效评估的情况。
三、想分析的业务问题
1、员工满意度对产出和绩效评估的影响。
2、哪些因素对工作满意度影响较大。
3、是否有摩擦对工作满意度、环境满意度、敬业度、产出、绩效的影响。
4、数据集能分析出哪些人力资源行业指标。
四、数据清洗
1、选择子集,选出可作为唯一标识的字段,此数据集选择员工编号。
2、列名重命名,对描述不清的字段进行重命名。
3、删除重复值,在员工编号列做删除重复值操作。
4、缺失值处理,利用excel筛选功能,查看各字段有无空值,如有,补缺空值。利用查找替换功能和Ctrl+Enter快捷键批量补缺。
5、一致化处理,利用分列功能和字符串提取函数(FIND,LEFT,MID,RIGHT,LEN,LENB)截取字符进行。
6、数据排序,利用排序功能读取日产出字段最大值和最小值。
7、异常值处理,用IF函数筛选异常值,删除与问题分析不相关的数据。
五、在MySQL中分析问题
1、下载MySQL服务端和客户端。
2、导入下载数据表:IBM HR Analytics员工流失和绩效。
1)创建数据库:数据分析,CREATE DATABASE 数据分析。
2)导入数据表:IBM HR Analytics员工流失和绩效,员工编号(EmployeeNumber)设为主键,右键点击表名选择设计表修改字段类型。
3)新建查询分析问题。
问题1:员工满意度对产出和绩效评估的影响。
结论1:员工满意度与产出和绩效无线性关系,工作满意度为3等级的平均日产出最高。
问题2:出差、产出、上班距离、学历、环境满意度、工资、职业等级、晋升时间等因素的工作满意度情况,逐个对单个因素进行分析。(下两图分别是出差、离家距离因素的分析)
结论2:乘火车出差的工作满意度比不出差或乘飞机出差的低,其他单个因素无线性关系。
问题3:是否有摩擦对工作满意度、环境满意度、敬业度、产出、绩效的影响。
结论3:无工作摩擦时,员工的工作满意度、环境满意度、敬业度、日产出会更高,但有无摩擦对绩效评定无线性关系。
问题4:分析人力资源指标。
分析指标1:各部门人员数量的比例,所需字段:Department
研发部门员工最多,约占65%。
分析指标2:学历结构,所需字段:Education
1等学历员工有170名,2等学历员工有282名,3等学历员工572名(最多),4等学历员工398名,5等学历员工48名(最少)。
分析指标3:年龄结构,所需字段:Age
年龄在30—40的员工最多,约占42%。
分析指标4:内部变动率,所需字段:YearsSinceLastPromotion
上一年职务变动比例24.29%。
六、结论
员工满意度是一个整体的感知,从此虚拟数据中未找到线性相关的单个变量,在实际分析中也许会有不同的结果。