R语言——Kaggle十大经典案例—员工离职预测

最新推荐文章于 2024-05-17 08:30:00 发布

一克拉的小蚂蚁

最新推荐文章于 2024-05-17 08:30:00 发布

阅读量2.5w

点赞数 12

分类专栏： R语言文章标签： R语言 kaggle案例员工离职预测数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20408903/article/details/80628331

版权

项目背景：Our example concerns a big company that wants to understand why some of their best
and most experienced employees are leaving prematurely. The company also wishes to

predict which valuable employees will leave next.

案例说明：

本次案例需要的包包括：

library(plyr) # Rmisc的关联包,若同时需要加载dplyr包，必须先加载plyr包
library(dplyr) # filter()
library(ggplot2) # ggplot()
library(DT) # datatable() 建立交互式数据表
library(caret) # createDataPartition() 分层抽样函数
library(rpart) # rpart()
library(e1071) # naiveBayes()
library(pROC) # roc()
library(Rmisc) # multiplot() 分割绘图区域

数据分析基本步骤：

（1）业务理解;（2）明确业务需求（需求分析）;（3）数据获取;（4）数据理解

（5）数据探索分析（数据的描述性分析）；（6）数据预处理；（7）建模预测；（8）模型评估与应用

1、业务背景：我们所关心的问题是，为什么一些大的公司里，他们最优秀最有经验的员工会过早的离职？公司希望能够预测这些最有价值的员工接下来是否会离职。

2、数据理解：我们使用的数据是CSV数据文件格式，其中自变量9个，因变量为是否离职。下表对所有变量进行了说明，以便更好的理解数据。

3、数据探索分析：上表备注中的结果是如何得到的？这就是数据探索性分析。以下是对原始数据进行数据探索分析的过程。

（1）观察各个变量的数据结构及主要描述统计量。

hr <- read.csv("E:\\HR_comma_sep.csv")
str(hr)
summary(hr)

a. str(hr)用来查看各个变量的数据结构

b. summary(hr)来查看各个变量的主要描述统计量

（2）探索员工对公司满意度、绩效评估和月均工作时长和工作年限与是否离职的关系，并绘制箱线图。

后续我们会用到决策树模型及朴素贝叶斯模型进行预测，模型要求目标变量必须为因子型（分类变量），而我们的数据中，目标变量left为int型，所以，首先我们将其数据类型转化为因子型。

    hr$left<-factor(hr$left,levels = c("0","1"))

a. 探索员工对公司满意度与是否离职的关系

        # 绘制对公司满意度与是否离职的箱线图
        box_s

最低0.47元/天解锁文章

一克拉的小蚂蚁

关注

12
点赞
踩
153

收藏

觉得还不错? 一键收藏
9
评论
R语言——Kaggle十大经典案例—员工离职预测

项目背景：Our example concerns a big company that wants to understand why some of their bestand most experienced employees are leaving prematurely. The company also wishes topredict which valuable ...
复制链接

扫一扫

专栏目录

一克拉的小蚂蚁 CSDN认证博客专家 CSDN认证企业博客

码龄10年

22: 原创

14万+: 周排名

147万+: 总排名

8万+: 访问

: 等级

969: 积分

27: 粉丝

41: 获赞

15: 评论

228: 收藏

私信

关注

分类专栏

MySQL 3篇
数据仓库 2篇
SqlServer 1篇
Kettle 1篇
FineReport 2篇
Oracle 6篇
Informatica 3篇
Python 8篇
R语言 1篇
Linux 2篇
批处理 1篇
数据分析 1篇

最新评论

Kettle — Unable to create the database cache
Cym02: 牛啊牛啊牛啊
Kettle — Unable to create the database cache
Alincl: 有用！不过我的路径是D:\pdi-ce-9.0.0.0-423\data-integration\.kettle
R语言——Kaggle十大经典案例—员工离职预测
m0_52822992: 你好，请问这个的压缩文件解压的密码是多少呀？
R语言——Kaggle十大经典案例—员工离职预测
ccwk: 楼主有这套教程的代码和课件否
Python—调用GrowingIO平台接口下载CSV数据
一克拉的小蚂蚁: 这个错误说的很清楚了呀，downloadLinks是列表，所以这里传入的值必须是整型或者切片形式，而tableName是str，所以报错了哇举个例子：b是list，应该是b[0] or b[1:4],而不是b['a'],具体问题的话得看你的脚本

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。