问题建模之样本选择

为什么要进行样本选择呢?
1、若样本集较大,在训练模型时带来资源和时间的巨大消耗。
2、样本集中可能会有一些噪声点和异常点,影响模型效果。
3、样本集中可能会有冗余数据或不相关的数据,对我们的模型训练没有提升。

下面介绍一下样本选择的几种方法。

一、数据去噪

噪声的存在具有两面性,一方面,噪声的存在会导致数据质量变低 ,影响模型的效果,但通过在训练集中引人噪声数据也能起到提升模型健壮性的作用 。因此当需要处理噪声数据的时候 ,通常会权衡模型的健壮性和模型的效果 。而且有时候去噪反而会导致模型的效果变差。

要去噪,首先要识别出噪声,然后采取直接过滤或者修改噪声数据等多种做法。噪声数据可能是特征值不对, 比如特征值缺失、超出特征值域范围等; 也可能是标注不对,比如二分类正样本标注成负样本 。 数据去噪很多是检测和去除训练数据中标注带噪声的实例。

二、采样

为什么要采样?
1、降低成本,提高模型训练速度。
2、解决数据集不平衡的问题。
下面介绍5种采样方法。

现有的采样方法有很多,下文简单介绍5种采样方法。

  1. 无放回简单随机抽样
  2. 有放回简单抽样
  3. 平衡采样:通常会对小数据量的类别进行上采样,或者对大数据量的类别
    进行下采样。ADASYN和SMOTE算法是上采样里两个比较常用的方法。
  4. 聚类采样:它先将数据集T 中的数据分组成C 个互斥的簇,然后再从G 个
    簇中简单随机采样S 个簇作为样本集,这个方法是分两个阶段完成采样的。
  5. 分层采样:该方法分别对每个类别进行采样,能使每个类别在样本集S中的分布和数据集T 中的分布更为一致。比如对二分类数据进行分层采样,以采样率0.9分别对正负样本采样,能保证正负比例还是1 : 100 ;如果对全部10 100条样本采样90% ,可能出现正样本10条、负样本9080条的情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值