多分类模型尝试-员工是否离职预测

目录

文章目录

前言

一、初始化

二、了解数据集

三、了解变量

四、特征处理

五、建模

5.1 模型一:逻辑回归

5.2 模型二:KNN

5.3 模型三:随机森林

总结




前言

本项目的主要内容是对公司员工进行分类 预测其两年内是否会离职

尝试模型:逻辑回归、KNN、随机森林

变量含义:

· Education:受教育水平  
· JoiningYear:加入公司年份  
· City:所在城市  
· PaymentTier :薪资支付水平  
· Age :年龄  
· Gender :性别  
· EverBenched :历史是否离开过一个月及以上时间  
· ExperienceInCurrentDomain:在当前领域的经验  
· LeaveOrNot :是否离职  



一、初始化

导入相关包和库

#数据处理包
import numpy as np
import pandas as pd

#画图
import matplotlib.pyplot as plt
from matplotlib import rcParams
import seaborn as sns 

#建模
from sklearn.preprocessing import scale,LabelEncoder #用于数据预处理模块的缩放器、标签编码
from sklearn.model_selection import train_test_split #数据集分类器 用于划分训练集和测试集
from sklearn.metrics import classification_report,accuracy_score #评估预测结果
from sklearn.linear_model import LogisticRegression #逻辑回归
from sklearn.neighbors import KNeighborsClassifier #KNN
from sklearn.tree import DecisionTreeClassifier #决策树
from sklearn.ensemble import RandomForestClassifier #随机森林
from sklearn.ensemble import GradientBoostingClassifier #XGB分类

设置显示

#设置输出全部结果 而非只有最后一个
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

#设置正常显示负号和中文
%matplotlib inline
plt.rcParams['font.family'] = 'SimHei' #用来正常显示中文
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

导入数据

#读取数据
data = pd.read_csv("/和鲸数据/多分类模型尝试-员工是否离职预测/Employee.csv")
data.head()



二、了解数据集

data.shape # 查看数据集结构 
data.head() # 预览数据
data.isnull().sum() # 查看每一列的缺失值数量

由此可知,数据集共有4653行&9列,特征变量中无缺失值。

data.info() # 查看特征类型

  • 3
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值