作业要求:
根据给定的影响员工离职的因素和员工是否离职的记录,分别建立多个分类预测模型:基于信息增益的决策树模型、基于基尼指数的决策树模型、朴素贝叶斯模型、支持向量机模型,还有逻辑回归模型,预测有可能离职的员工;并对各模型进行模型评估。
#本文中的训练集为dataset1,测试集为dataset2
dataset1=pd.read_csv('pfm_train.csv')
dataset2=pd.read_csv('pfm_test.csv')
先导入可能需要的库:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
一.数据清洗
1.缺失值处理
检查数据集中是否有缺失值,并决定如何处理(如填充、删除或插值)
# 统计缺失值
print(dataset1.isnull().sum())#训练集
print(dataset2.i