LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子)

与 xgboost 类似,LightGBM包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:LightGBM 相关知识理解

一、LightGBM 原生接口

重要参数

boosting / boost / boosting_type

用于指定弱学习器的类型,默认值为 ‘gbdt’,表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。

可选的参数值有:

  • ‘gbdt’,使用梯度提升树
  • ‘rf’,使用随机森林
  • ‘dart’,不太了解,官方解释为 Dropouts meet Multiple Additive Regression Trees
  • ‘goss’,使用单边梯度抽样算法,速度很快,但是可能欠拟合。

推荐设置为 'gbdt’

objective / application

用于指定学习任务及相应的学习目标,常用的可选参数值如下:

  • “regression”,使用L2正则项的回归模型(默认值)。
  • “regression_l1”,使用L1正则项的回归模型。
  • “mape”,平均绝对百分比误差。
  • “binary”,二分类。
  • “multiclass”,多分类。

num_class

用于设置多分类问题的类别个数。

min_child_samples

叶节点样本的最少数量,默认值20,用于防止过拟合。

learning_rate / eta

LightGBM 不完全信任每个弱学习器学到的残差值,为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta,设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。

推荐的候选值为:[0.01, 0.015, 0.025, 0.05, 0.1]

max_depth

指定树的最大深度,默认值为-1,表示不做限制,合理的设置可以防止过拟合。

推荐的数值为:[3, 5, 6, 7, 9, 12, 15, 17, 25]

num_leaves

指定叶子的个数,默认值为31,此参数的数值应该小于 2 m a x _ d e p t h 2^{max\_depth} 2max_depth

feature_fraction / colsample_bytree

构建弱学习器时,对特征随机采样的比例,默认值为1。

推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]

bagging_fraction / subsample

默认值1,指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。 取值在(0, 1)之间,设置为1表示使用所有数据训练弱学习器。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。

注意: bagging_freq 设置为非0值时才生效。

推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]

bagging_freq / subsample_freq

数值型,默认值0,表示禁用样本采样。如果设置为整数 z ,则每迭代 k 次执行一次采样。

lambda_l1

L1正则化权重项,增加此值将使模型更加保守。

推荐的候选值为:[0, 0.01~0.1, 1]

lambda_l2

L2正则化权重项,增加此值将使模型更加保守。

推荐的候选值为:[0, 0.1, 0.5, 1]

min_gain_to_split / min_split_gain

指定叶节点进行分支所需的损失减少的最小值,默认值为0。设置的值越大,模型就越保守。

**推荐的候选值为:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] **

min_sum_hessian_in_leaf / min_child_weight

指定孩子节点中最小的样本权重和,如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束,默认值为1。

推荐的候选值为:[1, 3, 5, 7]

metric

用于指定评估指标,可以传递各种评估方法组成的list。常用的评估指标如下:

  • ‘mae’,用于回归任务,效果与 ‘mean_absolute_error’, ‘l1’ 相同。
  • ‘mse’,用于回归任务,效果与 ‘mean_squared_error’, ‘l2’ 相同。
  • ‘rmse’,用于回归任务,效果与 ‘root_mean_squared_error’, ‘l2_root’ 相同。
  • ‘auc’,用于二分类任务。
  • ‘binary’,用于二分类任务。
  • ‘binary_logloss’,用于二分类任务。
  • ‘binary_error’,用于二分类任务。
  • ‘multiclass’,用于多分类。
  • ‘multi_logloss’, 用于多分类。
  • ‘multi_error’, 用于多分类。

seed / random_state

指定随机数种子。

训练参数

以lightgbm.train为主,参数及默认值如下:

lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, feature_name='auto', categorical_feature='auto', early_stopping_rounds=None, evals_result=None, verbose_eval=True, learning_rates=None, keep_training_booster=False, callbacks=None)

1,params

字典类型,用于指定各种参数,例如:{‘booster’:‘gbtree’,‘eta’:0.1}

2,train_set

用于训练的数据,通过给下面的方法传递数据和标签来构造:

train_data = lgb.Dataset(train_x, train_y)

3,num_boost_round

指定最大迭代次数,默认值为10

4,valid_sets

列表类型,用于指定训练过程中用于评估的数据及数据的名称。例如:[train_data, valid_data]

train_data = lgb.Dataset(train_x, train_y)
valid_data = lgb.Dataset(valid_x, valid_y, reference=train)

5,fobj

可以指定二阶可导的自定义目标函数。

6,feval

自定义评估函数。

7,categorical_feature

指定哪些是类别特征。

8,early_stopping_rounds

指定迭代多少次没有得到优化则停止训练,默认值为None,表示不提前停止训练。

注意:valid_sets 必须非空才能生效,如果有多个数据集,则以最后一个数据集为准。

9,verbose_eval

可以是bool类型,也可以是整数类型。如果设置为整数,则每间隔verbose_eval次迭代就输出一次信息。

10,init_model

加载之前训练好的 lgb 模型,用于增量训练。

预测方法

predict(data, num_iteration=None)

参数说明:

  • data:string, numpy array, pandas DataFrame
  • num_iteration:选择第几次迭代用于预测,如果使用了 early_stopping_rounds,那么最佳的一次迭代将被使用

注意,对于分类问题,predict 方法返回的是属于各个类别的概率,需要执行下面的语句才能获取到预测的类别:

y_pred = model.predict(X_test)
y_pred = np.argmax(y_pred, axis=1)

绘制特征重要性

代码如下:

from lightgbm import plot_importance
# 显示重要特征,max_num_features 指定显示多少个特征
plot_importance(lgb_model, max_num_features)
plt.show()

分类例子

from sklearn.datasets import load_iris
import lightgbm as lgb
from lightgbm import plot_importance
import matplotlib.pyplot  as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris(
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值