员工离职是企业管理中一个常见的问题,但过早离职不仅影响团队的稳定性,还会增加招聘和培训新员工的成本。为了帮助公司更好地理解员工离职的原因,我们通过数据分析技术对相关数据进行了深入挖掘和可视化分析。本文将介绍如何通过描述性分析、相关性分析和变量对比分析,揭示影响员工离职的关键因素,并提出公司需要思考和解决的问题。
数据预处理
1. 数据检查与理解
我们首先对数据集进行了检查,发现数据集中共有14,999条员工记录,包含10个特征。这些特征包括员工满意度、绩效评估、完成项目数、平均每月工作时间、在公司年份、是否有工伤、是否离职、过去5年是否有晋升、部门和薪资水平。
import pandas as pd
import numpy as npdata = pd.read_csv('/home/kesci/input/human_one/HR_comma_sep.csv')
data.head()
2. 检查缺失值
幸运的是,数据集中没有缺失值,这为我们后续的分析提供了便利。
data.info()
3. 重命名列
为了更直观地理解和获取特征列,我们对部分列进行了重命名,例如将“sales”改为“department”,将“promotion_last_5years”改为“promotion”。
df = data.rename(columns={"sales": "department", "promotion_last_5years": "promotion"})
df.columns