XGBoost学习笔记（三）

最新推荐文章于 2022-02-21 00:15:17 发布

Worldora-

最新推荐文章于 2022-02-21 00:15:17 发布

阅读量299

点赞数

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/qq_43787862/article/details/105690790

版权

机器学习笔记专栏收录该内容

4 篇文章 9 订阅

订阅专栏

过拟合：剪枝参数与回归模型调参

在XGB中，控制复杂度的参数 $\gamma$ ，正则化参数 $\alpha,\lambda$ 学习速率 $\eta$ 都可以控制过拟合，但并非主要用于解决过拟合问题。
在这里插入图片描述

其中树的深度是除了n_estimators之外调的第一个参数，影响巨大。
后面的几个参数主要是针对特征的抽样，可以防止过拟合。相对来说其中bytree和bylevel会有较大影响。

当得到一个数据集之后，通常先通过网格搜索找出合适的n_estimators和eta的组合，然后使用gamma或者max_depth观察模型的拟合情况，最后决定是否剪枝。
可以通过以下代码对XGB进行调参。

param1 = {'silent':True
          ,'obj':'reg:linear'
          ,"subsample":1
          ,"max_depth":6
          ,"eta":0.3
          ,"gamma":0
          ,"lambda":1
          ,"alpha":0
          ,"colsample_bytree":1
          ,"colsample_bylevel":1
          ,"colsample_bynode":1
          ,"nfold":5}
num_round = 200

time0 = time()
cvresult1 = xgb.cv(param1, dfull, num_round)
print(datetime.datetime.fromtimestamp(time()-time0).strftime("%M:%S:%f"))

fig,ax = plt.subplots(1,figsize=(15,8))
ax.set_ylim(top=5)
ax.grid()
ax.plot(range(1,201),cvresult1.iloc[:,0],c="red",label="train,original")
ax.plot(range(1,201),cvresult1.iloc[:,2],c="orange",label="test,original")

param2 = {'silent':True
          ,'obj':'reg:linear'
          ,"max_depth":2
          ,"eta":0.05
          ,"gamma":0
          ,"lambda":1
          ,"alpha":0
          ,"colsample_bytree":1
          ,"colsample_bylevel":0.4
          ,"colsample_bynode":1
          ,"nfold":5}

param3 = {'silent':True
          ,'obj':'reg:linear'
          ,"subsample":1
          ,"eta":0.05
          ,"gamma":20
          ,"lambda":3.5
          ,"alpha":0.2
          ,"max_depth":4
          ,"colsample_bytree":0.4
          ,"colsample_bylevel":0.6
          ,"colsample_bynode":1
          ,"nfold":5}

time0 = time()
cvresult2 = xgb.cv(param2, dfull, num_round)
print(datetime.datetime.fromtimestamp(time()-time0).strftime("%M:%S:%f"))

time0 = time()
cvresult3 = xgb.cv(param3, dfull, num_round)
print(datetime.datetime.fromtimestamp(time()-time0).strftime("%M:%S:%f"))

ax.plot(range(1,201),cvresult2.iloc[:,0],c="green",label="train,last")
ax.plot(range(1,201),cvresult2.iloc[:,2],c="blue",label="test,last")
ax.plot(range(1,201),cvresult3.iloc[:,0],c="gray",label="train,this")
ax.plot(range(1,201),cvresult3.iloc[:,2],c="pink",label="test,this")
ax.legend(fontsize="xx-large")
plt.show()

XGB中模型的保存和调用

使用Pickle保存和调用模型

import pickle
dtrain = xgb.DMatrix(Xtrain,Ytrain)

#设定参数，对模型进行训练
param = {'silent':True
          ,'obj':'reg:linear'
          ,"subsample":1
          ,"eta":0.05
          ,"gamma":20
          ,"lambda":3.5
          ,"alpha":0.2
          ,"max_depth":4
          ,"colsample_bytree":0.4
          ,"colsample_bylevel":0.6
          ,"colsample_bynode":1}
num_round = 180

bst = xgb.train(param, dtrain, num_round)

首先完成模型的训练，然后进行模型的保存

#保存模型
pickle.dump(bst, open("xgboostonboston.dat","wb"))

#注意，open中我们往往使用w或者r作为读取的模式，但其实w与r只能用于文本文件 - txt
#当我们希望导入的不是文本文件，而是模型本身的时候，我们使用"wb"和"rb"作为读取的模式
#其中wb表示以二进制写入，rb表示以二进制读入，使用open进行保存的这个文件中是一个可以进行读取或者调用的模型

可以查看模型保存的地址

#看看模型被保存到了哪里？
import sys
sys.path

运行结果的第一行是当前运行的文件夹
然后可以在下次打开文件时打开模型：

#导入模型
loaded_model = pickle.load(open("xgboostonboston.dat", "rb"))
print("Loaded model from: xgboostonboston.dat")

使用joblib保存和调用模型

使用方法与pickle类似，

import joblib

#同样可以看看模型被保存到了哪里
joblib.dump(bst,"xgboost-boston.dat")

注意这里不用使用open打开文件。

loaded_model = joblib.load("xgboost-boston.dat")

同样可以导入模型。

XGB中的样本不均衡问题

在这里插入图片描述
可以使用scale_pos_weight参数对正负样本的比例进行控制。

Worldora-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
XGBoost学习笔记（三）

过拟合：剪枝参数与回归模型调参在XGB中，控制复杂度的参数γ\gammaγ，正则化参数α,λ\alpha,\lambdaα,λ学习速率η\etaη都可以控制过拟合，但并非主要用于解决过拟合问题。其中树的深度是除了n_estimators之外调的第一个参数，影响巨大。后面的几个参数主要是针对特征的抽样，可以防止过拟合。相对来说其中bytree和bylevel会有较大影响。当得到一个数据...
复制链接

扫一扫

专栏目录