之前看到一个使用R语言分析的《离职员工预测》。今天闲来无事,就用python做了一下。
该项目的目标:建立预测员工是否离职的模型,并对模型进行评价
1、数据导入
2、数据变量的描述
从下图可以看出,总共14999条instances,并且数据完整,无任何缺失项。
除了sales和salary两列,均为数值型变量
satisfaction_level: 员工的满意度
last_evaluation: 绩效评估
number_project: 参与项目的个数
average_monthly_hours:每月的工作时常
time_spend_company: 在公司时长
work_accident:工作事故
left: 是否离职
promotion_last_5years:是否晋升
sales: 部门
salary: 薪资
3. 数据的探索性分析
使用data.describe()对各列进行大致分析
画出satisfaction_level,last_evaluation, number_project, average_monthly_hours,time_spend_company与left的箱线图,看看各变量和是否离职的大致关系。
从图中可以看出,离职的员工,满意度较低,晋升次数较多,花费在公司的时间较多。
参与项目比较分散。
4. 建立模型
在本例中,使用的分类方法是决策树,对于测试集预测的正确率为98%,可见训练的模型很好。在进行5着交叉验证,和绘制的ROC曲线,均证明该模型很好。
python小白白
2018-07-22