随机递归特征消除
1、背景介绍
我们的数据集中可能有很多特征,即使在删除了一些显而易见的无用或无效特征之后,为了达到模型的最佳性能,我们往往还需要进行特征选择,特征选择问题实际上是一个搜索问题,我们既不知道我们应该选哪些特征,也不知道我们选多少个特征合适。
每一个特征都有两种选择:留下或删除。那么 n n n个特征就 2 n − 1 2^n - 1 2n−1个非空子集,显然我们去遍历这些子集并两两对比在 n n n较大时是不切实际的。有很多种算法去寻找这个最优子集,这里不一一介绍。
其中一种简单有效的方法就是递归特征消除,它是一种后向搜索策略,即从全集中不断删除特征,直到符合停止条件。这是一种贪心算法,即