一文概述XGBoost、Light GBM和CatBoost的同与不同

本文对比了XGBoost、Light GBM和CatBoost这三种boosting算法,探讨了它们在历史背景、结构差异、处理分类变量的方法以及超参数相似性方面的特点。XGBoost在特定数据集上可能较慢,而Light GBM使用GOSS技术,CatBoost和LighGBM能直接处理分类变量,XGBoost则需要预处理。
摘要由CSDN通过智能技术生成

尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、缺乏调参知识等场景依然有其不可或缺的优势。本文从算法结构差异、每个算法的分类变量时的处理、算法在数据集上的实现等多个方面对 3 种代表性的 boosting 算法 CatBoost、Light GBM 和 XGBoost 进行了对比;虽然本文结论依据于特定的数据集,但通常情况下,XGBoost 都比另外两个算法慢。

历史

  • 2014 年 3 月,XGBOOST 最早作为研究项目,由陈天奇提出
  • 2017 年 1 月,微软发布首个稳定版 LightGBM
  • 2017 年 4 月,俄罗斯顶尖技术公司 Yandex 开源 CatBoost

介绍

由于 XGBoost(通常被称为 GBM 杀手)已经在机器学习领域出现了很久,如今有非常多详细论述它的文章,所以本文将重点讨论 CatBoost 和 LGBM,在下文我们将谈到:

  • 算法结构差异
  • 每个算法的分类变量时的处理
  • 如何理解参数
  • 算法在数据集上的实现
  • 每个算法的表现

结构差异

在过滤数据样例寻找分割值时,LightGBM 使用的是全新的技术:基于梯度的单边采样(GOSS);而 XGBoost 则通过预分类算法和直方图算法来确定最优分割。

每个模型是如何处理属性分类变量的?

  1. CatBoost
    CatBoost 可赋予分类变量指标,进而通过独热最大
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值