机器学习建模案例-人力资源分析

本文通过一个机器学习案例,展示了如何使用scikit-learn预测员工完成培训后寻找新工作的可能性。数据包含个人特征,如性别、城市、工作经验等,并通过描述性统计和可视化发现标签分布不平衡。在训练和评估了多个分类器后,确定GDBT模型表现最佳。
摘要由CSDN通过智能技术生成

目的是什么:任务的目标是建立一个模型,该模型经过训练后能够预测参加某公司培训的人结束培训后寻找新工作的可能性。
数据在哪儿:该数据集包含参与培训的人的个人信息,包括性别、居住城市、目前在职的公司情况和学历等等特征。最重要的,包含最终是否寻找新工作,也就是拥有标签。
要达到的标准:这是一个典型的分类问题,我们将使用不同的分类器,让评价指标来告诉我们哪个是最合适的模型。

点此跳转Github查看数据集及代码

1. 处理数据,数据清洗

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
os.chdir(r'……')
data_train=pd.read_csv('aug_train.csv')
print(data_train.shape)
data_train.head()

结果如下:
plt

# 这个数据集有很多NaN值,先统计各字段的缺失率
data_train.apply(lambda x: sum(x.isnull())/len(x),axis=0)

plt1特征 enrollee_id:候选人的唯一ID city:城市代码 city_ development _index:城市发展指数 gender:候选人性别 relevent_experience:候选人是否有相关经验 enrolled_university:已注册的大学课程类型 education_level:候选人的教育程度 major_discipline:候选人的专业 experience:候选人的工作年限 company_size:当前雇主公司中的雇员人数 company_type:当前雇主公司的类型 lastnewjob:当前雇主公司的工作年限 training_hours:培训时间时长

data_train=data_train.fillna('no')
data_train['company_size'] = data_train['company_size'].replace('10/49', '10-49')

2. 描述性统计&可视化

用tableau进行数据探索,见下图
plt6

import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
%matplotlib inline
fig = px
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值