Xgboost:
LightGBM:
理论改进:
(1)Exclusive Feature Bundling(EFB)。实际数据中有很多稀疏的特征,这些特征绝大部分都是0,其中有很多特征是互斥的——即不存在同时非零的情况。如果能够将互斥的信息组合成bundles,那么在构建用以判断分裂点的histogram 时,算法复杂度能从 O(data * feature) 降到 O(data * bundles)。LightGBM 提出一种有效的互斥特征的组合算法,回答了组合哪些特征、如何组合的问题,能够将 optimal bundling problem 转换为 graph coloring problem。
哪些grtg进行组合:
- 首先将所有特征表示为一个加权图,权重表示互斥值。
GOSS keeps all the instances with large gradients and performs random sampling on the instances with small gradietns.
a 是大梯度样本的比例,不采样。1-a 是小梯度样本的比例,b 是其采样比例,小梯度样本的样本权重是 (1-a)/b,以保证样本分布的一致性。