机器学习建模案例-人力资源分析_人力分析相关的机器学习-CSDN博客

本文链接：https://blog.csdn.net/m0_54388124/article/details/115532351

本文通过一个机器学习案例，展示了如何使用scikit-learn预测员工完成培训后寻找新工作的可能性。数据包含个人特征，如性别、城市、工作经验等，并通过描述性统计和可视化发现标签分布不平衡。在训练和评估了多个分类器后，确定GDBT模型表现最佳。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目的是什么：任务的目标是建立一个模型，该模型经过训练后能够预测参加某公司培训的人结束培训后寻找新工作的可能性。
数据在哪儿：该数据集包含参与培训的人的个人信息，包括性别、居住城市、目前在职的公司情况和学历等等特征。最重要的，包含最终是否寻找新工作，也就是拥有标签。
要达到的标准：这是一个典型的分类问题，我们将使用不同的分类器，让评价指标来告诉我们哪个是最合适的模型。

点此跳转Github查看数据集及代码

1. 处理数据,数据清洗

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
os.chdir(r'……')
data_train=pd.read_csv('aug_train.csv')
print(data_train.shape)
data_train.head()

结果如下：
plt

# 这个数据集有很多NaN值，先统计各字段的缺失率
data_train.apply(lambda x: sum(x.isnull())/len(x),axis=0)

plt1 特征 enrollee_id：候选人的唯一ID city：城市代码 city_ development _index：城市发展指数 gender：候选人性别 relevent_experience：候选人是否有相关经验 enrolled_university：已注册的大学课程类型 education_level：候选人的教育程度 major_discipline：候选人的专业 experience：候选人的工作年限 company_size：当前雇主公司中的雇员人数 company_type：当前雇主公司的类型 lastnewjob：当前雇主公司的工作年限 training_hours：培训时间时长

data_train=data_train.fillna('no')
data_train['company_size'] = data_train['company_size'].replace('10/49', '10-49')

2. 描述性统计&可视化

用tableau进行数据探索，见下图
plt6

import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
%matplotlib inline
fig = px