ML - 数据样本分布不均:过采样、欠采样、阈值移动

逻辑回归做二分类任务有个基本假设,那就是不同类别额训练样本数目相当。如果差别很大,训练出来的学习器将没有价值。毕竟只要输出占比多的结果,正确率就不会太低。

再缩放

用m+表示正例数目,m-表示负例数目,则观测几率是m+/m-
在“训练集是真实样本总体的无偏采样”的前提下,观测j几率可以代表真实几率
所以进行rescaling
在这里插入图片描述
通常采用的是,直接基于原始训练集进行学习,在预测前,把该式嵌入到决策过程中,这称为阈值移动(threshold-moving)

欠采样

假如反例100W个,正例100个
**思路一:**我们直选出100个正例和100负例训练。
优点:开销小。缺点:可能丢失丢失信息
**思路二:**利用集成学习,将反例划分为若干个集合,供不同学习器使用,对每个学习器来看是进行了欠采样,但对于全局来讲不会丢是重要信息。

过采样

通过一些方法使正反例数目接近。
注意,不能简单地对正例样本重复采样,会过拟合。
可以采用SMOTE数据生成策略
就是对每一个少类样本点,首先找到离其最近的同类样本,然后在他们的距离上取0-1之间随机数作为比例,加到原始数据点上。
主要过程:
1.对于少类样本x,以欧氏距离为标准,得到其近邻样本
2.根据样本不平衡比例确定采样倍率N,对于每一个少数样本x,从其近邻开始一次选择N个样本
3.对于每个新样本,按照如下公式构建样本数据
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值