XGBoost 重要参数、方法、函数理解及调参思路(附例子)


xgboost 包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章: XGBoost算法的相关知识

一、xgboost 原生接口

重要参数

1,booster

用于指定弱学习器的类型,默认值为 ‘gbtree’,表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。

推荐设置为 ‘gbtree’,本文后面的相关参数设置都以booster设置为’gbtree’为前提。

2,eta / learning_rate

如果你看了我之前发的XGBoost算法的相关知识,不难发现XGBoost为了防止过拟合,引入了"Shrinkage"的思想,即不完全信任每个弱学习器学到的残差值。为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta,设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。

在XGBClassifier与XGBRegressor中,对应参数名为 learning_rate。

推荐的候选值为:[0.01, 0.015, 0.025, 0.05, 0.1]

3,gamma

指定叶节点进行分支所需的损失减少的最小值,默认值为0。设置的值越大,模型就越保守。

**推荐的候选值为:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] **

4,alpha / reg_alpha

L1正则化权重项,增加此值将使模型更加保守。

在XGBClassifier与XGBRegressor中,对应参数名为 reg_alpha 。

推荐的候选值为:[0, 0.01~0.1, 1]

5,lambda / reg_lambda

L2正则化权重项,增加此值将使模型更加保守。

在XGBClassifier与XGBRegressor中,对应参数名为 reg_lambda。

推荐的候选值为:[0, 0.1, 0.5, 1]

6,max_depth

指定树的最大深度,默认值为6,合理的设置可以防止过拟合。

推荐的数值为:[3, 5, 6, 7, 9, 12, 15, 17, 25]

7,min_child_weight

指定孩子节点中最小的样本权重和,如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束,默认值为1。

推荐的候选值为:[1, 3, 5, 7]

8,subsample

默认值1,指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。 取值在(0, 1)之间,设置为1表示使用所有数据训练弱学习器。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。

推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]

9,colsample_bytree

构建弱学习器时,对特征随机采样的比例,默认值为1。

推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]

10,objective

用于指定学习任务及相应的学习目标,常用的可选参数值如下:

  • “reg:linear”,线性回归(默认值)。
  • “reg:logistic”,逻辑回归。
  • “binary:logistic”,二分类的逻辑回归问题,输出为概率。
  • “multi:softmax”,采用softmax函数处理多分类问题,同时需要设置参数num_class用于指定类别个数

11,num_class

用于设置多分类问题的类别个数。

12,eval_metric

用于指定评估指标,可以传递各种评估方法组成的list。常用的评估指标如下:

  • ‘rmse’,用于回归任务

  • ‘mlogloss’,用于多分类任务

  • ‘error’,用于二分类任务

  • ‘auc’,用于二分类任务

13,silent

数值型,表示是否输出运行过程的信息,默认值为0,表示打印信息。设置为1时,不输出任何信息。

推荐设置为 0

14,seed / random_state

指定随机数种子。

在XGBClassifier与XGBRegressor中,对应参数名为 random_state 。

训练参数

以xgboost.train为主,参数及默认值如下:

xgboost.train(params, dtrain, num_boost_round=10, evals=(),
				 obj=None, feval=None, maximize=False, 
				 early_stopping_rounds=None,  evals_result=None, 
				 verbose_eval=True, xgb_model=None, callbacks=None)

1,params

字典类型,用于指定各种参数,例如:{‘booster’:‘gbtree’,‘eta’:0.1}

2,dtrain

用于训练的数据,通过给下面的方法传递数据和标签来构造:

dtrain = xgb.DMatrix(data, label=label)

3,num_boost_round

指定最大迭代次数,默认值为10

4,evals

列表类型,用于指定训练过程中用于评估的数据及数据的名称。例如:[(dtrain,‘train’),(dval,‘val’)]

5,obj

可以指定二阶可导的自定义目标函数。

6,feval

自定义评估函数。

7,maximize

是否对评估函数最大化,默认值为False。

8,early_stopping_rounds

指定迭代多少次没有得到优化则停止训练,默认值为None,表示不提前停止训练。如果设置了此参数,则模型会生成三个属性:

  • best_score

  • best_iteration

  • best_ntree_limit

注意:evals 必须非空才能生效,如果有多个数据集,则以最后一个数据集为准。

9,verbose_eval

可以是bool类型,也可以是整数类型。如果设置为整数,则每间隔verbose_eval次迭代就输出一次信息。

10,xgb_model

加载之前训练好的 xgb 模型,用于增量训练。

预测函数

主要是下面的两个函数:

1,predict(data),返回每个样本的预测结果

2,predict_proba(data),返回每个样本属于每个类别的概率

注意:data 是由 DMatrix 函数封装后的数据。

绘制特征重要性

代码如下:

from xgboost import plot_importance
# 显示重要特征,model 为训练好的xgb模型
plot_importance(model)
plt.show()

分类例子

from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
import matplotlib.pyplot  as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X,y = iris.data,iris.target
# 数据集分割
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457)

# 参数
params = {
   
    'booster': 'gbtree',
    'objective': &
1. 在前端增加右下角的询盘表单弹窗: 可以使用以下代码实现,在 WordPress 主题的 functions.php 文件中添加以下代码: ```php add_action('wp_footer', 'my_custom_popup'); function my_custom_popup() { ?> <div id="popup-wrapper"> <div id="popup-content"> <h2>询盘表单</h2> <form> <label for="name">姓名:</label> <input type="text" id="name" name="name"> <label for="email">电子邮件:</label> <input type="email" id="email" name="email"> <label for="message">信息:</label> <textarea id="message" name="message"></textarea> <button type="submit">提交</button> </form> </div> </div> <style> #popup-wrapper { position: fixed; bottom: 0; right: 0; width: 300px; height: 300px; background-color: #fff; box-shadow: 0px 0px 10px rgba(0, 0, 0, 0.5); z-index: 9999; } #popup-content { padding: 20px; } </style> <?php } ``` 这段代码会在网站的底部右侧增加一个 300x300 的弹窗,内部包含一个表单。你可以根据需要更改弹窗的大小和表单的内容。 2. 在前端的右侧增加在线悬浮窗口: 可以使用以下代码实现,在 WordPress 主题的 functions.php 文件中添加以下代码: ```php add_action('wp_footer', 'my_custom_chat_widget'); function my_custom_chat_widget() { ?> <div id="chat-widget"> <a href="https://wa.me/8518588629881" target="_blank"> <img src="https://www.example.com/wp-content/uploads/whatsapp-icon.png" alt="WhatsApp Chat"> </a> </div> <style> #chat-widget { position: fixed; bottom: 20px; right: 20px; z-index: 9999; } </style> <?php } ``` 这段代码会在网站的底部右侧增加一个 WhatsApp 聊天的悬浮窗口。你需要将图片的 URL 替换为你自己的图片,也可以根据需要更改悬浮窗口的位置和样式。 3. 后台的排版: 如果你需要在后台增加一些统计数据,可以使用 WordPress 提供的 REST API 和图表插件实现。 首先需要安装一个图表插件,例如 WPForms Charts and Graphs。 然后在 functions.php 文件中添加以下代码: ```php add_action('wp_enqueue_scripts', 'my_custom_enqueue_scripts'); function my_custom_enqueue_scripts() { if (is_admin()) { wp_enqueue_script('my-custom-script', get_template_directory_uri() . '/js/my-custom-script.js', array('jquery'), '1.0', true); } } add_action('admin_menu', 'my_custom_admin_menu'); function my_custom_admin_menu() { add_menu_page('Dashboard', 'Dashboard', 'manage_options
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值