LightGBM Exclusive Feature Bundling

博客探讨了在高维稀疏数据中,如何通过Exclusive Feature Bundling(互斥特征合并)来降维并加速GBDT训练。LightGBM使用贪心策略将互斥特征组合,转换为图着色问题,降低直方图构建的时间复杂度。文章还介绍了如何确保合并后的特征值仍能被有效区分,以保持模型精度。
摘要由CSDN通过智能技术生成

互斥特征合并(Exclusive Feature Bundling)

高维的数据通常是稀疏的,这种特征空间的稀疏性给我们提供了一种设计一种接近无损地降维的可能性。特别的,在稀疏特征空间中,许多特征是互斥的,换句话说,大部分特征不会同时取非0值,例如One-hot之后的类别特征他们从不同时为非0值。我们可以合并互斥的特征为单一特征(我们将这个过程称为Exclusive Feature Bundle).通过仔细设计特征扫描算法,我们从合并特征中构建出与单个特征相同的特征直方图。通过这种方式,直方图构建算法的时间复杂度从O(ND)O(ND),降到O(N×bundle)O(N×bundle),其中NN为样本点数目,DD为特征维度。通常,bundle << DD,我们能够在不损失精度的情况下极大地加速GBDT的训练。

那么接下来有两个问题需要处理:

  • 需要合并哪些特征
  • 如何合并这些特征

Greedy Bundling

找出最优的 bundle 组合数是一个 NP 问题,LightGBM通过将原问题转化为”图着色”问题进行贪心近似解决。

首先创建一个图G(V,E)G(V,E),其中VV就是特征,为图中的节点,EE为GG中的边,将不是相互独立的特征用一条边连接起来,边的权重就是两个相连接的特征的总冲突值,这样需要绑定的特征就是在图着色问题中要涂上同一种颜色的那些点(特征)。具体算法过程如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值