1.背景
在监督学习中,一个提供先前已知信息的训练集用于对新实例进行分类。通常,很多在训练集上的实例,但是其中一些在分类上是冗余的,因此,忽略无用的样本,有可能获得比较不错的分类准确率;这个过程称为实例选择, 通过实例选择,减少了训练集,从而减少了分类器训练阶段的时间,提高效率。实例选择大致可以分为三个方向,一种基于filter方法的,一种基于wrapper方法的。还有就是两种方法结合的,在这里我准备讲下机器学习中基于filter的实例选择方法。
2.问题
2 即对于给定的允许的错误率,要求选出更少的训练样本,这个是约束的组合优化问题
3 在错误率和选中的样本数之间折中
3.机器学习中实例选择的一般过程

对于删除数据类型:根据对数据集中不同类型数据删除策略,实例选择算法可以大致分为三类,能力提升性,能力保持型,以及混合型。类似的像ENN,FCNN,RNN等。
接下来我们简单的看几个filter实例选择算法
ENN算法


由公式可以看出,一个实例近邻集的实例与该实例本身类别相同,它的近邻集中的所有实例均可以将这条实例正确分类,故N(P)的大小表示能将P正确分类的实例数,因此一个实例的近邻集越大,表示该实例能被正确分类的能力就越强,对比其他实例,它的相对分类能力就越弱;同理,一个实例的相关集越大,说明这个实例可以正确分类的其它实例越多,换角度而言,有越多的其它实例依赖该实例正确分类,因此相关集越大,分类能力越强。
从ICF算法过程可以看出,它的搜索方向是递减的,首先初始化压缩集S为原始样本集T,首先从Step1-4对数据集中的噪声实例进行剔除,获得一个新的压缩集,接下来从Step5-10对实例重要性进行考察,剔除掉冗余样本(如果一个实例的近邻集大于该实例的相关集,则将该实例从S中删除),该算法可以同时达到去噪和去冗的过程。使得留下来的样本是一些能影响分类能力的样本,减少了大量样本的同时,也保证较低的错误率(即构造的模型具有较高的分类能力)。
根据以上浅谈的几个算法,大家可以知道机器学习中实例选择算法的大致做法,希望对刚入门做实例选择的会有所帮助。谢谢大家!