数据来源与背景
数据来源:https://www.kaggle.com/jiangzuo/hr-comma-sep/version/1
数据背景: 该数据集是指某公司员工的离职数据, 其包含14999个样本以及10个特征, 这10个特征分别为: 员工对公司满意度, 最新考核评估, 项目数, 平均每月工作时长, 工作年限, 是否出现工作事故, 是否离职, 过去5年是否升职, 岗位, 薪资水平.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.model_selection import train_test_split
# 读取数据
df = pd.read_csv("./HR_comma_sep.csv")
df.head()
# 检测缺失值
df.isnull().any()
satisfaction_level False
last_evaluation False
number_project False
average_montly_hours False
time_spend_company False
Work_accident False
left False
promotion_last_5years False
sales False
salary False
dtype: bool
# 更改数据列名
df = df.rename(columns={
"satisfaction_level":"员工对公司满意度",
"last_evaluation":"最新考核评估",
"number_project":"项目数"