lightGBM的Exclusive Feature Bundling

互斥特征绑定(EFB),可以规约到图着色问题。先说图着色问题:
图着色问题(Graph Coloring Problem, GCP)又称着色问题,是最著名的NP-完全问题之一。
数学定义:给定一个无向图G=(V, E),其中V为顶点集合,E为边集合,图着色问题即为将V分为K个颜色组,每个组形成一个独立集,即其中没有相邻的顶点。
独立集:给一无向图,找出一个点集,使得任意两点之间都没有连边,这个点集就是独立集。ps: 点最多的独立集,就是最大独立集。
从图着色的问题来看,给定V,将V划分成K个组,对应到互斥特征绑定中,就是给定|V|个特征,将这个|V|个特征划分成K个特征组。在图着色问题中,每个独立集其中没有相邻的顶点;在EFB中,K个特征组内部每个特征之间互斥。
互斥的含义:两个特征之间不同时取非0值。在实际的问题中,很多时候由于特征的onehot编码等方式,导致高维特征非常稀疏,假设两列特征都只有很少的部分有值,而且他们相互之间不同时取非零的值,那么他们就可以绑定到一起。
举例:

更广义的互斥

两个特征之间几乎不同时取非0值

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值