案例:员工流失是困扰企业的关键因素之一,在这次的分析中我将分析以下内容:
对一些重要变量进行可视化及探索分析,收入,晋升,满意度,绩效,是否加班等方面进行单变量分析
分析员工流失的因素,探索各个变量的影响度
构建有效的模型来预测员工是否会离职
数据集主要分析的字段
## Attrition 是否离职 需要预测的结果变量## Gender 性别## Age 年龄## Education 学历## NumCompaniesWorked 任职过的企业数量## TotalWorkingYears 工作年限## MaritalStatus 婚姻状况## YearsAtCompany 在公司的工作时间## JobRole 职位## JobLevel 职位等级## MonthlyIncome 月薪## JobInvolvement 工作投入程度## PerformanceRating 绩效评分## StockOptionLevel 员工的股权等级## PercentSalaryHike 涨薪百分比## TrainingTimesLastYear 上一年培训次数## YearsSinceLastPromotion 距离上次升值的时间## EnvironmentSatisfaction 环境满意度## JobSatisfaction 工作满意度## RelationshipSatisfaction 关系满意度## WorkLifeBalance 生活和工作的平衡度## DistanceFromHome 公司和家庭的距离## OverTime 是否要加班## BusinessTravel 是否要出差
1.导入包
library(ggplot2)
library(grid)
library(gridExtra)
library(plyr)
library(rpart)
library(rpart.plot)
library(randomForest)
library(caret)
library(gbm)
library(survival)
library(pROC)
library(DMwR)
library(scales)
2.导入数据集并查看
Attr.df
head(Attr.df)
summary(Attr.df)
结论:离职率大概在1:5左右
企业的员工的平均年龄在36,37岁左右
月薪的大概是在4900美元,这里采用中位数,平均数会引起偏差
3.单变量分析
3.1探索性别,年龄,工龄,企业数量,在公司的时限的分析
#离职员工年龄的分布
g1
g2
g3
g4
grid.arrange(g1,g2,g3,g4,ncol=2,nrow=2)
结论:
1.年龄较低的员工的离职率较高,主要集中在30岁以下的员工
2.工作过的企业数量越多越容易离职
3.在公司工作的时间越久,越不容易离职
4.工龄低的员工离职的几率比较大
3.2性别,职位等级,教育背景,部门的分析
#离职员工的性别分布
g5
scale_y_continuous(labels=pe