XGBoost 、逻辑回归、随机森林模型实战对比

温旧酒一壶~

已于 2022-03-02 10:30:04 修改

阅读量8.2k

点赞数 3

分类专栏：机器学习算法文章标签： python 开发语言后端

于 2022-02-23 15:48:52 首次发布

原文链接：https://blog.csdn.net/qq_24519677/article/details/81869196

版权

机器学习算法专栏收录该内容

9 篇文章

订阅专栏

引言

在XGBoost基本原理博文中我们介绍了XGBoost的基本原理，本篇博文我们将介绍XGBoost的基本使用方法，作为新手的学习参考。

本文使用kaggle上的泰坦尼克数据集，只是对XGBoost的使用做一个简单的描述，若想知道Kaggle的整个竞赛流程以及在竞赛中如何使用XGBoost进行预测的话，关注本博客，以后会陆续推出与竞赛内容相关的博客及代码。kaggle的泰坦尼克的数据集分为训练数据和测试数据，测试数据与训练数据的区别在于测试数据缺少‘survival’列，即为我们需要预测的列，数据集中的每列描述如下：
survival------表示乘客是否存活；0=No，1=Yes
    pclass------表示票的等级；1=1st，2=2nd，3=3rd
    sex------表示乘客性别；
    Age------表示乘客年龄
    sibsp------表示在船上的兄弟姐妹加上配偶的数量
    parch------表示在船上的父母加上子女的数量
    ticket------表示票的编号
    fare------表示票价
   cabin------表示船舱编号
   embarked------表示乘客登录的港口；C = Cherbourg, Q = Queenstown, S = Southampton
       接下来就是如何进行简单的特征处理，以及如何用XGBoost对测试集进行预测，同时也会使用其他的模型与XGBoost进行比较。

一、数据的特征处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import cross_validation
from sklearn.preprocessing import LabelEncoder
 
import warnings
warnings.filterwarnings('ignore')

train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')
train.info()  # 打印训练数据的信息

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

从输出信息中可以看出训练集一共有891个样本,12个特征，所有数据所占的内存大小为83.6K；所有的特征中有两个特征缺失情况较为严重,一个是Age,一个是Cabin;一个缺失不严重Embarked；数据一共有三种类型,float64(2), int64(5), object(5)。

接下来就是对数据的缺失值进行处理，这里采用的方法是对连续值用该列的平均值进行填充，非连续值用该列的众数进行填充，还可以使用机器学习的模型对缺失值进行预测，用预测的值来填充缺失值，该方法这里不做介绍：

def handle_na(train, test):  # 将Cabin特征删除
    fare_mean = train['Fare'].mean()  # 测试集的fare特征有缺失值，用训练数据的均值填充
    test.loc[pd.isnull(test.Fare), 'Fare'] = fare_mean
 
    embarked_mode = train['Embarked'].mode()  # 用众数填充
    train.loc[pd.isnull(train.Embarked), 'Embarked'] = embarked_mode[0]
    
    train.loc[pd.isnull(train.Age), 'Age'] = train['Age'].mean()  # 用均值填充年龄
    test.loc[pd.isnull(test.Age), 'Age'] = train['Age'].mean()
    return train, test
 
new_train, new_test = handle_na(train, test)  # 填充缺失值

由于Embarked，Sex，Pclass特征是离散特征，所以对其进行one-hot/get_dummies编码

# 对Embarked和male特征进行one-hot/get_dummies编码
new_train = pd.get_dummies(new_train, columns=['Embarked', 'Sex', 'Pclass'])
new_test = pd.get_dummies(new_test, columns=['Embarked', 'Sex', 'Pclass'])

然后再去除掉PassengerId，Name，Ticket，Cabin, Survived列，这里不使用这些特征做预测

target = new_train['Survived'].values
# 删除PassengerId，Name，Ticket，Cabin, Survived列
df_train = new_train.drop(['PassengerId','Name','Ticket','Cabin','Survived'], axis=1).values
df_test = new_test.drop(['PassengerId','Name','Ticket','Cabin'], axis=1).values

二、导入XGBoost模型

因为XGBoost是使用的是一堆CART树进行集成的，而CART(Classification And Regression Tree)树即可用作分类也可用作回归，这里仅仅介绍XGBoost的分类，回归问题类似，有需要请访问XGBoost API的官网进行查看。

class xgboost.XGBClassifier(max_depth=3, learning_rate=0.1, n_estimators=100, silent=True, objective='binary:logistic', booster='gbtree', n_jobs=1, nthread=None, gamma=0, min_child_weight=1, max_delta_step=0, subsample=1, colsample_bytree=1, colsample_bylevel=1, reg_alpha=0, reg_lambda=1, scale_pos_weight=1, base_score=0.5, random_state=0, seed=None, missing=None, **kwargs)

max_depth : int 表示基学习器的最大深度；
learning_rate : float 表示学习率，相当于原生版本的 "eta";
n_estimators: int 表示去拟合的boosted tree数量；
silent：boolean 表示是否在运行boosting期间打印信息；
objective：string or callable 指定学习任务和相应的学习目标或者一个自定义的函数被使用，具体看原生版本的objective；
booster：string 指定要使用的booster，可选项为：gbtree，gblinear 或 dart；
n_jobs：int 在运行XGBoost时并行的线程数量。
gamma：float 在树的叶节点上进行进一步分区所需的最小损失的减少值，即加入新节点进入的复杂度的代价；
min_child_weight ： int 在子节点中实例权重的最小的和；
max_delta_step ： int 我们允许的每棵树的权重估计最大的delta步骤；
subsample ：float 训练样本的子采样率；
colsample_bytree ：float 构造每个树时列的子采样率。
colsample_bylevel ：float 在每一层中的每次切分节点时的列采样率；
reg_alpha ：float 相当于原生版本的alpha，表示L1正则化项的权重系数；
reg_lambda： float 相当于原生版本的lambda，表示L2正则化项的权重系数；
scale_pos_weight：float 用来平衡正负权重；
base_score：所有实例的初始预测分数，全局偏差；
random_state：int 随机种子；
missing：float，optional 需要作为缺失值存在的数据中的值。如果为None，则默认为np.nan。

XGBoost的sklearn的接口版本用法与sklearn中的模型的用法相同，这里简单的进行使用

X_train,X_test,y_train,y_test = train_test_split(df_train,target,test_size = 0.3,random_state = 1)
 
model = xgb.XGBClassifier(max_depth=3, n_estimators=200, learn_rate=0.01)
model.fit(X_train, y_train)  
test_score = model.score(X_test, y_test)
print('test_score: {0}'.format(test_score))

下面是XGBoost的sklearn接口版本对数据进行预测的结果：

三、使用其他模型于XGBoost进行对比

# 应用模型进行预测
model_lr = LogisticRegression()
model_rf = RandomForestClassifier(n_estimators=200)
model_xgb = xgb.XGBClassifier(max_depth=5, n_estimators=200, learn_rate=0.01)
models = [model_lr, model_rf, model_xgb]
model_name = ['LogisticRegression', '随机森林', 'XGBoost']
 
cv = ShuffleSplit(len(df_train), n_iter=3, test_size=0.3, random_state=1)
for i in range(3):
    print(model_name[i] + ":")
    model = models[i]
    for train, test in cv:    
        model.fit(df_train[train], target[train])
        train_score = model.score(df_train[train], target[train])
        test_score = model.score(df_train[test], target[test])
        print('train score: {0:.5f} \t test score: {0:.5f}'.format(train_score, test_score))

各个模型的运行结果如下：