用R语言分析与预测员工离职

最新推荐文章于 2025-03-04 09:49:27 发布

R语言中文社区

最新推荐文章于 2025-03-04 09:49:27 发布

阅读量1.3w

点赞数 42

本文链接：https://blog.csdn.net/kMD8d5R/article/details/83542978

版权

本文使用R语言分析kaggle上的人力资源数据集，探讨员工离职的原因。通过数据读取、预处理、EDA和模型构建，发现离职与满意度高度相关。使用random forest算法进行预测，得到高精度结果，强调理解算法原理和加强数据分析技能的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者简介

糖甜甜甜，R语言中文社区专栏作者

公众号：经管人学数据分析

在实验室搬砖之后，继续我们的kaggle数据分析之旅，这次数据也是答主在kaggle上选择的比较火的一份关于人力资源的数据集，关注点在于员工离职的分析和预测，依然还是从数据读取，数据预处理，EDA和机器学习建模这几个部分开始进行，最后使用集成学习中比较火的random forest算法来预测离职情况。

数据读取

setwd("E:/kaggle/human resource") library(data.table) library(plotly) library(corrplot) library(randomForest) library(pROC) library(tidyverse) library(caret) hr<-as.tibble(fread("HR_comma_sep.csv")) glimpse(hr) sapply(hr,function(x){sum(is.na(x))}) ———————————————————————————————————————————————————————————————————————————————————— Observations: 14,999 Variables: 10 $ satisfaction_level <dbl> 0.38, 0.80, 0.11, 0.72, 0.37, 0.41, 0.10, 0.92, 0.89, 0.42, 0.45, 0.11, 0.84, 0.41, 0.36, 0.38, 0.45, 0.78, 0.45, 0.76, 0.11, 0.3... $ last_evaluation <dbl> 0.53, 0.86, 0.88, 0.87, 0.52, 0.50, 0.77, 0.85, 1.00, 0.53, 0.54, 0.81, 0.92, 0.55, 0.56, 0.54, 0.47, 0.99, 0.51, 0.89, 0.83, 0.5... $ number_project <int> 2, 5, 7, 5, 2, 2, 6, 5, 5, 2, 2, 6, 4, 2, 2, 2, 2, 4, 2, 5, 6, 2, 6, 2, 2, 5, 4, 2, 2, 2, 6, 2, 2, 2, 4, 6, 2, 2, 6, 2, 5, 2, 2, ... $ average_montly_hours <int> 157, 262, 272, 223, 159, 153, 247, 259, 224, 142, 135, 305, 234, 148, 137, 143, 160, 255, 160, 262, 282, 147, 304, 139, 158, 242,... $ time_spend_company <int> 3, 6, 4, 5, 3, 3, 4, 5, 5, 3, 3, 4, 5, 3, 3, 3, 3, 6, 3, 5, 4, 3, 4, 3, 3, 5, 5, 3, 3, 3, 4, 3, 3, 3, 6, 4, 3, 3, 4, 3, 5, 3, 3, ... $ Work_accident <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... $ left <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... $ promotion_last_5years <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... $ sales <chr> "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sa... $ salary <chr> "low", "medium", "medium", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low... satisfaction_level last_evaluation number_project average_montly_hours time_spend_company Work_accident left 0 0 0 0 0 0 0 promotion_last_5years sales salary 0 0 0

数据集情况如下，一共10维数据，14999个观测值，变量的代表名称分别是
satisfaction_level--满意度，last_evaluation--最后一次评估，number_project--参与项目数量，average_montly_hours--每月平均工作时间，time_spend_company--公司停留时间，Work_accident--工作事故次数，left--是否离职，promotion_last_5years--过去五年升值状况，sales--工种，salary--工资。

而且简单的观测了一下，没有发现缺失值，那么我就可以直接进入数据分析阶段了。