R语言——Kaggle十大经典案例—员工离职预测

项目背景:Our example concerns a big company that wants to understand why some of their best 
and most experienced employees are leaving prematurely. The company also wishes to 

 

predict which valuable employees will leave next.

 

案例说明:

本次案例需要的包包括:

library(plyr)              # Rmisc的关联包,若同时需要加载dplyr包,必须先加载plyr包
library(dplyr)            # filter()
library(ggplot2)        # ggplot()             
library(DT)                # datatable()        建立交互式数据表
library(caret)            # createDataPartition()       分层抽样函数
library(rpart)            # rpart()
library(e1071)          # naiveBayes()
library(pROC)          # roc()
library(Rmisc)          # multiplot()           分割绘图区域

数据分析基本步骤:

(1)业务理解;(2)明确业务需求(需求分析);(3)数据获取;(4)数据理解

(5)数据探索分析(数据的描述性分析);(6)数据预处理;(7)建模预测;(8)模型评估与应用

1、业务背景:我们所关心的问题是,为什么一些大的公司里,他们最优秀最有经验的员工会过早的离职?公司希望能够预测这些最有价值的员工接下来是否会离职。

2、数据理解:我们使用的数据是CSV数据文件格式,其中自变量9个,因变量为是否离职。下表对所有变量进行了说明,以便更好的理解数据。

3、数据探索分析:上表备注中的结果是如何得到的?这就是数据探索性分析。以下是对原始数据进行数据探索分析的过程。

   (1)观察各个变量的数据结构及主要描述统计量。

hr <- read.csv("E:\\HR_comma_sep.csv")
str(hr)
summary(hr)

     a. str(hr)用来查看各个变量的数据结构

    b. summary(hr)来查看各个变量的主要描述统计量

 (2)探索员工对公司满意度、绩效评估和月均工作时长和工作年限与是否离职的关系,并绘制箱线图。

         后续我们会用到决策树模型及朴素贝叶斯模型进行预测,模型要求目标变量必须为因子型(分类变量),而我们的数据中,目标变量left为int型,所以,首先我们将其数据类型转化为因子型。

    hr$left<-factor(hr$left,levels = c("0","1"))

          a. 探索员工对公司满意度与是否离职的关系

        # 绘制对公司满意度与是否离职的箱线图
        box_s
  • 12
    点赞
  • 153
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值