python做hr数据分析实例_python实战——对人力数据进行分析

本文通过Python分析一家公司的人力资源数据,揭示员工离职的原因。数据包括员工满意度、考核评分、项目数量、工作时间等。发现离职员工在项目数量、工作时间、满意度等方面表现出不同于在职员工的特征,例如项目多、工作时间长、满意度低。通过对数据的清洗、描述性分析和探索性分析,得出离职与项目数量、工作时间和满意度之间存在显著关联。
摘要由CSDN通过智能技术生成

分析背景

一家公司负责人想要知道为什么最近公司好多有经验的员工选择辞职,并且预测哪些员工可能离职?

数据来源

数据说明

此数据为虚拟数据

分析步骤

获取数据, 并对数据进行读取

了解数据格式, 大小, 内容

对数据异常值与缺失值进行清洗处理

对数据进行描述性分析

各维度下数据的分布情况

对数据进行探索性分析

维度两两之间的关系, 对比分析。

分析过程

1. 获取数据, 并进行读取。

我们从Kaggle上下载数据, 将数据保存到本地, 并用python对数据进行读取。

导入数据包

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

% matplotlib inline

import seaborn as sns

读取数据, 并命名为df

df = pd.read_csv('C:/Users/zhangyu/Desktop/data_test/HR_comma_sep.csv')

2. 了解数据, 大小, 类型, 内容

查看数据的大小

df. shape

(14999, 10)

数据有14999行, 10列

读取数据前5行

df.head()

数据前5行

读取数据后5行

df.tail(5)

数据后5行

查看数据类型

df.dtypes

satisfaction_level float64

last_evaluation float64

number_project int64

average_montly_hours int64

time_spend_company int64

Work_accident int64

left int64

promotion_last_5years int64

sales object

salary object

dtype: object

查看sales列中的唯一值

df['sales'].unique()

array(['sales', 'accounting', 'hr', 'technical', 'support', 'management',

'IT', 'product_mng', 'marketing', 'RandD'], dtype=object)

查看salary列中的唯一值

df['salary'].unique()

array(['low', 'medium', 'high'], dtype=object)

3. 对数据进行清洗处理

查看数据是否有缺失值

df.any()

satisfaction_level True

last_evaluation True

number_project True

average_montly_hours True

time_spend_company True

Work_accident True

left True

promotion_last_5years True

sales True

salary True

dtype: bool

返回False代表数据有缺失值, 返回True代表数据无缺失值, 此数据源无缺失值。

对数据列名进行更换,以便更好的阅读

df = df.rename(columns = {

'satisfaction_level' : '员工满意度', 'last_evaluat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值