分析目的
通过分析了解员工离职原因。
数据采集
数据源:员工信息csv文件
数据读取:
import pandas as pd
from pandas import DataFrame
from pandas import read_csv
import matplotlib
import matplotlib.pyplot as plt
file_path = 'D:/study/HR_comma_sep.csv'
process_data = pd.read_csv(file_path, encoding='utf-8', sep=',')
数据处理
预览数据
data.png
数据基本信息
process_data.info()
d2.png
通过基本信息了解到数据集有14999行,10个字段,没有空值。
字段
含义
satisfaction_level
满意度
last_evaluation
员工考核
number_project
项目数
average_montly_hours
平均每月工作时间
time_spend_company
工龄
Work_accident
工作事故
left
是否离职(0:在职,1离职)
promotion_last_5years
过去五年是否有晋升
sales
部门
salary
薪资水平
数据分析
1.首先看下几个数值类型的字段的描述性统计分析
describe_df = process_data.describe()
describe.png
可以得知对公司的平均满意度为 0.61283,员工考核的平均值为0.7161,平均每月工作时长的平均值为201小时。
2.观察各字段之间相关程度
corr_data = process_data.corr()
corr.png