互斥特征绑定(EFB),可以规约到图着色问题。先说图着色问题:
图着色问题(Graph Coloring Problem, GCP)又称着色问题,是最著名的NP-完全问题之一。
数学定义:给定一个无向图G=(V, E),其中V为顶点集合,E为边集合,图着色问题即为将V分为K个颜色组,每个组形成一个独立集,即其中没有相邻的顶点。
独立集:给一无向图,找出一个点集,使得任意两点之间都没有连边,这个点集就是独立集。ps: 点最多的独立集,就是最大独立集。
从图着色的问题来看,给定V,将V划分成K个组,对应到互斥特征绑定中,就是给定|V|个特征,将这个|V|个特征划分成K个特征组。在图着色问题中,每个独立集其中没有相邻的顶点;在EFB中,K个特征组内部每个特征之间互斥。
互斥的含义:两个特征之间不同时取非0值。在实际的问题中,很多时候由于特征的onehot编码等方式,导致高维特征非常稀疏,假设两列特征都只有很少的部分有值,而且他们相互之间不同时取非零的值,那么他们就可以绑定到一起。
举例:
更广义的互斥
两个特征之间几乎不同时取非0值