上手机器学习系列-第6篇(下)-LightGBM原理篇

本文深入解读LightGBM算法论文,探讨GOSS(Gradient-based One-Side Sampling)和EFB(Exclusive Feature Bundling)两种创新方法。GOSS通过筛选梯度大的样本提高计算效率,EFB通过绑定互斥特征减少计算量,共同提升LightGBM的性能。
摘要由CSDN通过智能技术生成

前言

前面的文章分享过了LightGBM的实践编码,本篇让我们一起来读一下算法论文《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》,从原理层面上去深入一层。

推荐大家在读论文的同时,参考LightGBM官网材料([https://lightgbm.readthedocs.io/en/latest/Features.html])来理解,这样可以对论文中省略掉的思路过程做一些补充。

论文解读

我们先来快速把握这篇论文的中心思想。它提出了两个具有创新性的方法:

  1. GOSS(Gradient-based One-Side Sampling),该方法的目的是缩减用于计算信息增益的样本集数量,参与计算的数据量少了,计算性能就更好了;
  2. EFB(Exclusive Feature Bundling),该方法目的在于减少用于参与分裂点筛选计算的特征变量数量,同样的,因为参与计算的对象少了,性能就提升了。

决策树算法的核心点就在于每来到一个树的分叉点时,选择哪个特征变量,以及选择哪个数值进行拆分。传统的做法就是遍历所有特征变量的所有可用于分裂的数值点(遍历所有样本记录),根据定义好的某个损失函数来进行最优化选择。面对海量数据时,这种算法往往会遇到计算性能瓶颈,容易想到的方法就是要么减少参与计算的样本量,要么减少特征变量的数量。但这并不是一个轻易的工作。作者的论文就是围绕这两点来展开的。

先说GOSS

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值