为什么要进行样本选择呢?
1、若样本集较大,在训练模型时带来资源和时间的巨大消耗。
2、样本集中可能会有一些噪声点和异常点,影响模型效果。
3、样本集中可能会有冗余数据或不相关的数据,对我们的模型训练没有提升。
下面介绍一下样本选择的几种方法。
一、数据去噪
噪声的存在具有两面性,一方面,噪声的存在会导致数据质量变低 ,影响模型的效果,但通过在训练集中引人噪声数据也能起到提升模型健壮性的作用 。因此当需要处理噪声数据的时候 ,通常会权衡模型的健壮性和模型的效果 。而且有时候去噪反而会导致模型的效果变差。
要去噪,首先要识别出噪声,然后采取直接过滤或者修改噪声数据等多种做法。噪声数据可能是特征值不对, 比如特征值缺失、超出特征值域范围等; 也可能是标注不对,比如二分类正样本标注成负样本 。 数据去噪很多是检测和去除训练数据中标注带噪声的实例。
二、采样
为什么要采样?
1、降低成本,提高模型训练速度。
2、解决数据集不平衡的问题。
下面介绍5种采样方法。
现有的采样方法有很多,下文简单介绍5种采样方法。
- 无放回简单随机抽样
- 有放回简单抽样
- 平衡采样:通常会对小数据量的类别进行上采样,或者对大数据量的类别
进行下采样。ADASYN和SMOTE算法是上采样里两个比较常用的方法。 - 聚类采样:它先将数据集T 中的数据分组成C 个互斥的簇,然后再从G 个
簇中简单随机采样S 个簇作为样本集,这个方法是分两个阶段完成采样的。 - 分层采样:该方法分别对每个类别进行采样,能使每个类别在样本集S中的分布和数据集T 中的分布更为一致。比如对二分类数据进行分层采样,以采样率0.9分别对正负样本采样,能保证正负比例还是1 : 100 ;如果对全部10 100条样本采样90% ,可能出现正样本10条、负样本9080条的情况。