实例选择方法-CSDN博客

本文链接：https://blog.csdn.net/qq_39623150/article/details/80922511

1.背景

在监督学习中，一个提供先前已知信息的训练集用于对新实例进行分类。通常，很多在训练集上的实例，但是其中一些在分类上是冗余的，因此，忽略无用的样本，有可能获得比较不错的分类准确率；这个过程称为实例选择，通过实例选择，减少了训练集，从而减少了分类器训练阶段的时间，提高效率。实例选择大致可以分为三个方向，一种基于filter方法的，一种基于wrapper方法的。还有就是两种方法结合的，在这里我准备讲下机器学习中基于filter的实例选择方法。

2.问题

实例选择，即是从全部样本中选出一部分样本，使得构造出来的模型效果更好，推广能力更强，如何做实例选择呢？如何从全部训练集中选出一部分样本在一定评价准则下，在当前的训练和测试数据表现很好。因此实例选择可以看成三个问题

1 从原始训练集上选出一定数目的样本，使得构造出的模型的错误率最小，这是一个无约束的组合优化问题

2 即对于给定的允许的错误率，要求选出更少的训练样本，这个是约束的组合优化问题

3 在错误率和选中的样本数之间折中

3.机器学习中实例选择的一般过程

实例选择算法可以分为两类

对于算法搜索方向：当我们从一个原始数据集T选择中选择一个压缩集时，根据搜索方向的不同可以将实例选择分为递增算法，递减算法和批处理算法，类似的有RNN，ENN等算法。

对于删除数据类型：根据对数据集中不同类型数据删除策略，实例选择算法可以大致分为三类，能力提升性，能力保持型，以及混合型。类似的像ENN，FCNN，RNN等。

接下来我们简单的看几个filter实例选择算法

ENN算法

根据近邻分类知道，当某个样本的最近几个样本中的大多数分类如果与当前样本的类别不符合的话，这个样本有很大的可能性是噪音样本，会影响分类器的最终分类器性能。ENN算法的优势也就体现在这，他的缺点就是对于边界的样本不好区分，同时一些冗余样本（不影响构造模型的准确度）并不能通过此算法来删除。

ICF算法

对于其中样本的领域集和相关集

由公式可以看出，一个实例近邻集的实例与该实例本身类别相同，它的近邻集中的所有实例均可以将这条实例正确分类，故N(P)的大小表示能将P正确分类的实例数，因此一个实例的近邻集越大，表示该实例能被正确分类的能力就越强，对比其他实例，它的相对分类能力就越弱；同理，一个实例的相关集越大，说明这个实例可以正确分类的其它实例越多，换角度而言，有越多的其它实例依赖该实例正确分类，因此相关集越大，分类能力越强。

从ICF算法过程可以看出，它的搜索方向是递减的，首先初始化压缩集S为原始样本集T，首先从Step1-4对数据集中的噪声实例进行剔除，获得一个新的压缩集，接下来从Step5-10对实例重要性进行考察，剔除掉冗余样本（如果一个实例的近邻集大于该实例的相关集，则将该实例从S中删除），该算法可以同时达到去噪和去冗的过程。使得留下来的样本是一些能影响分类能力的样本，减少了大量样本的同时，也保证较低的错误率(即构造的模型具有较高的分类能力）。

根据以上浅谈的几个算法，大家可以知道机器学习中实例选择算法的大致做法，希望对刚入门做实例选择的会有所帮助。谢谢大家！