集成算法xgboost、lightGBM、Catboost简介

集成算法

bagging

每个模型之间相互独立,各自训练之后取平均就是结果。典型代表就是随机森林,基础模型就是决策树。

  • 优点:各个基础模型独立训练,因此并行性更高,速度更快。
  • 缺点:因为模型独立,而基础模型的精度也有限,因此总体模型的精度上限也不算很高。
    在这里插入图片描述

Boosting

模型和模型训练是有关联的。训练完一个模型后,会根据它的结果专门训练下一个模型去修补某些误差。就像打高尔夫球一样,不能一杆进洞,但每次都是靠着目标不断逼近。
在这里插入图片描述

GBDT

梯度提升树实际上就是梯度下降的应用。它的计算沿用了boosting思想一步步进行迭代,当计算第n+1步的损失值时,前n步的预测值 F n ( x ) F_n(x) Fn(x)已经是个定值了,因此我们需要找到移到第n+1步的距离,也就是 δ n \delta_n δn,使得损失函数值最小。GDBT的策略就是让 δ n \delta_n δn为第n步时损失函数的梯度。但是因为梯度是泰勒的一阶展开,因此GDBT的精度也有限。因此自然而然就想到了用二阶导数(海森矩阵)来更加逼近,这也就是Xgboost的核心思想。
在这里插入图片描述

Xgboost

但是因为梯度是泰勒的一阶展开,因此GDBT的精度也有限。因此自然而然就想到了用二阶导数(海森矩阵)来更加逼近,这也就是Xgboost的核心思想。
但是因为每一棵决策树都需要等到前面的决策树运行完了之后才能进行跑当前的树(串型),并且每次都计算了二阶泰勒项,因此Xgboost会很慢。
​​​​在这里插入图片描述
Xgboost的代码模板相对比较固定,只需要结合实际任务与文档描述修改字典里相应的参数值就行了。
在这里插入图片描述

lightGBM

Xgboost虽然精度较高,但是由于算法架构导致了执行的速度非常的慢,因此在工业级数据集的规模很有可能会被卡死。因此微软就提出了lightGBM,在保证了精度的同时,运行效率也更快。因此也是目前kaggle数据挖掘比赛的主流算法(最优可能不是它,但是baseline基本上都是基于lightGBM搭建的)
lightGBM的底层实现十分复杂,并且每个人写的lightGBM代码也可能风格不一样(接口很多),因此需要多阅读官方文档了解清楚。在这里插入图片描述
下面这个就是lightGBM的代码,其中这个num_leaves的参数值就是叶子节点数,通常的值就是32-256。图中圈起来的部分就是国内常用的baseline写法。(其实按照上面老师写的字典格式更加清晰)
在这里插入图片描述

Catboost

相较于lightGBM性能要低一点,但是代码风格较为统一,并且GPU支持好。
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
XGBoostLightGBMCatBoost是三种常用的梯度提升树算法,它们在机器学习竞赛和实际应用中都取得了很好的效果。下面是它们的调参介绍: 1. XGBoost调参: - 学习率(learning rate):控制每次迭代中模型权重的更新步长,一般取值范围为[0,1],较小的学习率可以使模型更加稳定,但需要更多的迭代次数。 - 树的数量(n_estimators):决定了模型中树的个数,一般需要通过交叉验证来确定合适的值。 - 树的深度(max_depth):控制每棵树的最大深度,较大的深度可以提高模型的拟合能力,但也容易导致过拟合。 - 正则化参数(lambda、alpha):用于控制模型的复杂度,防止过拟合。 - 特征子采样比例(colsample_bytree):控制每棵树在训练时随机选择的特征比例,可以降低模型的方差。 2. LightGBM调参: - 学习率(learning_rate):同样控制每次迭代中模型权重的更新步长。 - 树的数量(num_iterations):决定了模型中树的个数。 - 树的深度(max_depth):控制每棵树的最大深度。 - 叶子节点数(num_leaves):控制每棵树的叶子节点数,较大的值可以提高模型的拟合能力,但也容易导致过拟合。 - 特征子采样比例(feature_fraction):控制每棵树在训练时随机选择的特征比例。 - 数据子采样比例(bagging_fraction):控制每次迭代时随机选择的训练数据比例。 3. CatBoost调参: - 学习率(learning_rate):同样控制每次迭代中模型权重的更新步长。 - 树的数量(iterations):决定了模型中树的个数。 - 树的深度(depth):控制每棵树的最大深度。 - 正则化参数(l2_leaf_reg):用于控制模型的复杂度,防止过拟合。 - 特征子采样比例(colsample_bylevel):控制每棵树在训练时随机选择的特征比例。 - 数据子采样比例(subsample):控制每次迭代时随机选择的训练数据比例。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值