上手机器学习系列-第6篇（下）-LightGBM原理篇

a_step_further

于 2020-03-20 15:08:59 发布

阅读量362

点赞数 1

分类专栏：统计学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a_step_further/article/details/104990500

版权

本文深入解读LightGBM算法论文，探讨GOSS（Gradient-based One-Side Sampling）和EFB（Exclusive Feature Bundling）两种创新方法。GOSS通过筛选梯度大的样本提高计算效率，EFB通过绑定互斥特征减少计算量，共同提升LightGBM的性能。

摘要由CSDN通过智能技术生成

前言

前面的文章分享过了LightGBM的实践编码，本篇让我们一起来读一下算法论文《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》，从原理层面上去深入一层。

推荐大家在读论文的同时，参考LightGBM官网材料（[https://lightgbm.readthedocs.io/en/latest/Features.html]）来理解，这样可以对论文中省略掉的思路过程做一些补充。

论文解读

我们先来快速把握这篇论文的中心思想。它提出了两个具有创新性的方法：

GOSS（Gradient-based One-Side Sampling），该方法的目的是缩减用于计算信息增益的样本集数量，参与计算的数据量少了，计算性能就更好了；
EFB（Exclusive Feature Bundling），该方法目的在于减少用于参与分裂点筛选计算的特征变量数量，同样的，因为参与计算的对象少了，性能就提升了。

决策树算法的核心点就在于每来到一个树的分叉点时，选择哪个特征变量，以及选择哪个数值进行拆分。传统的做法就是遍历所有特征变量的所有可用于分裂的数值点（遍历所有样本记录），根据定义好的某个损失函数来进行最优化选择。面对海量数据时，这种算法往往会遇到计算性能瓶颈，容易想到的方法就是要么减少参与计算的样本量，要么减少特征变量的数量。但这并不是一个轻易的工作。作者的论文就是围绕这两点来展开的。

先说GOSS

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
上手机器学习系列-第6篇（下）-LightGBM原理篇

前言前面的文章分享过了LightGBM的实践编码，本篇让我们一起来读一下算法论文《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》，从原理层面上去深入一层。推荐大家在读论文的同时，参考LightGBM官网材料（[https://lightgbm.readthedocs.io/en/latest/Features.html...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。