Relief算法的数据以及代码:https://github.com/qdbszsj/Relief
西瓜书第十一章,主要讲了一下特征选择的方法,通常来说,有很多冗余特征,如果能把这些特征从我们的数据集中筛选出去,那么可以极大地提高我们的程序运行效率,当然有的时候我们还需要人为保留或者创造一些冗余特征,当且仅当这些冗余特征恰好对应了完成任务所需要的“中间概念”。比如要求一个立方体的体积时,输入数据只有长宽高,如果能人为创造一个“底面积”或者“侧面积”这样的冗余特征,那么更容易求解,这个冗余特征要分情况来确定。
这里我们不主要探讨冗余特征,而是多说一些如何筛选特征,也就是搜索一个特征子集,让这个子集训练出来的模型最棒,这个问题显然是NP的,一切搜索方法都有局限性,那么目前我们常用的特征选择方法有三种:过滤式filter、包裹式wrapper、嵌入式embedding。
过滤式选择:
先对数据集进行特征选择,再训练学习器,特征选择与后续学习无关,我这个Relief算法就是一种经典的过滤式选择,Relief是先把每个个体的最近邻求出来,这里有几个分类结果就要求几个对应的近邻,分为猜中近邻(near-hit)和猜错近邻(near-miss),然后根据式11.3求一下各个属性的值就行,分量值越大,对应属性的能力就越强。
包裹式选择:
直接把最终要使用的学习器的性能作为特征子集的评价准则