实例选择能有效移除数据中的噪声和冗余数据。--移除数据中的噪声数据来提高数据分类准确率。
对数据集进行有效的预处理是进行分类学习、模式识别等问题的前提。
实例选择对数据集中的噪声实例(对分类产生负面作用的噪声实例)进行针对性的删除,进而提高数据集的分类准确率(优化分类学习过程)。
特征选择和实例选择是常用的两种数据简化方法,其中前者是减少实例属性的个数(特征降维),而后者是减少实例的个数(选出原始样本集的一个子集,同时要求该子集最好能具有与原始样本集相近或者更好的性能)。
对于实例选择问题的研究主要是寻找和构造有效的实例选择算法。
经典的实例选择算法:Edited Nearest-Neighbor (ENN) 剪辑最邻近算法:
mutual k-nearest neighbor