根据上一篇筛选的特征进行数据建模
划分数据集
前一篇介绍到数据集是不平衡数据集,这里采用k折交叉验证方法进行处理
# 划分训练集和验证集
X = data_dummy.drop('Label',axis=1)
y = train['Label'].map({
'Yes':1,'No':0})
X_train,X_valid,y_train,y_valid=train_test_split(X,y,test_size=0.2)
sklearn库导入模型
# 导入模型
from sklearn.linear_model import LogisticRegression # 逻辑回归
from sklearn.neighbors import KNeighborsClassifier # K近邻
from sklearn.svm import SVC # 支持向量机
from sklearn.tree import DecisionTreeClassifier # 决策树
from sklearn.ensemble import RandomForestClassifier # 随机森林