本次利用Excel进行员工数据分析。
分析步骤如下:
一、提出问题
首先,我们在分析数据之前要明确本次数据分析的目的,为了解决什么问题。
二、理解数据
本数据来源:
IBM HR Analytics Employee Attrition & Performancewww.kaggle.com三、数据清洗
1、选择子集
只选择和本次数据分析相关的字段,隐藏不相关的字段;把选择好的字段的全部数据选中复制到一个新表中,后面的数据分析都在新表总处理。选择字段:EmployeeNumber、Education、DistanceFromHome、OverTime、JobRole、Gender、Department、MonthlyIncome
字段含义:
2、规范列名
为方便后面数据分析,把数据集的英文列名更改为对应的中文列名,方便我们理解。
3、删除重复值
检查员工编号,条件格式——重复值,并未发现重复值,不删除。
4、缺失值处理
缺失值处理的 4 种方法:
①通过人工手动补全(定位空值,输入数据后按「Ctrl + Enter」批量填充)
②删除缺失的数据
③用平均值代替缺失值
④用统计模型计算出的值去代替缺失值
全选数据区域,用“定位条件”定位空值,未发现空值存在。
5、一致化处理
(1)为方便理解数据,把英文转化为中文。
(2)、离家距离需要分层级,根据距离的远近程度对其分层级。
根据需要进行划分层级,再用if函数进行处理。
6、异常值处理
根据“查找和筛选功能”未发现异常值,无须进行异常值处理。
到此数据清洗的所有步骤已完成,接下来我们开始构建模型。
四、构建模型
1、受教育程度与员工平均与收入的关系是什么?不同部门,员工受教育程度的比例。
制作透视表,做相关分析。
(1)、受教育程度与月均收入的关系。
(2)、不同部门间员工受教育程度情况。
2、公司离家距离和加班情况(比例)
3、同一工作角色,男性和女性的月均收入情况。不同工作角色的加班比例。
(1)、同一工作角色,男性和女性的月均收入情况
(2)、不同工作角色的加班比例
五、总结和建议