ML - 数据样本分布不均：过采样、欠采样、阈值移动

最新推荐文章于 2022-03-02 22:34:58 发布

G____G

最新推荐文章于 2022-03-02 22:34:58 发布

阅读量1.6k

点赞数 1

分类专栏： MachineLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/G____G/article/details/104783023

版权

MachineLearning 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

逻辑回归做二分类任务有个基本假设，那就是不同类别额训练样本数目相当。如果差别很大，训练出来的学习器将没有价值。毕竟只要输出占比多的结果，正确率就不会太低。

再缩放

用m+表示正例数目，m-表示负例数目，则观测几率是m+/m-
在“训练集是真实样本总体的无偏采样”的前提下，观测j几率可以代表真实几率
所以进行rescaling
在这里插入图片描述
通常采用的是，直接基于原始训练集进行学习，在预测前，把该式嵌入到决策过程中，这称为阈值移动（threshold-moving)

欠采样

假如反例100W个，正例100个
**思路一：**我们直选出100个正例和100负例训练。
优点：开销小。缺点：可能丢失丢失信息
**思路二：**利用集成学习，将反例划分为若干个集合，供不同学习器使用，对每个学习器来看是进行了欠采样，但对于全局来讲不会丢是重要信息。

过采样

通过一些方法使正反例数目接近。
注意，不能简单地对正例样本重复采样，会过拟合。
可以采用SMOTE数据生成策略
就是对每一个少类样本点，首先找到离其最近的同类样本，然后在他们的距离上取0-1之间随机数作为比例，加到原始数据点上。
主要过程：
1.对于少类样本x，以欧氏距离为标准，得到其近邻样本
2.根据样本不平衡比例确定采样倍率N，对于每一个少数样本x,从其近邻开始一次选择N个样本
3.对于每个新样本，按照如下公式构建样本数据
在这里插入图片描述

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。