机器学习：正负样本数据量不平衡处理方法

最新推荐文章于 2023-11-11 21:26:17 发布

Rookiekk

最新推荐文章于 2023-11-11 21:26:17 发布

阅读量4.5k

点赞数

分类专栏：机器学习文章标签：数据不平衡

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18888869/article/details/88807483

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

无偏采样：意味着真实样本总体的类别比例在训练集中得以保持。

在训练集中正反例数目不同时，令 $m^{+}$ 表示正例数目， $m^{-}$ 表示反例数目，观测几率为 $\frac{m^{+}}{m^{-}}$ ，，我们假设训练集是真是样本总体的无偏采样，因此观测几率就代表了真实几率。只要分类器的预测几率高于观测几率就应判定为正例，即

若 $\frac{y}{1-y}>\frac{m^{+}}{m^{-}}$ ，则预测为正例。

再缩放（再平衡）： $\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^{-}}{m^{+}}$ （1）。

再缩放思想虽然简单，但是实际操作却不平凡，主要因为无偏采样的假设往往不成立，就是说我们未必能有效的基于训练集观测几率来推断出真实几率。现有技术上大体上有三类做法：欠采样（下采样），过采样（上采样），阈值移动。

欠采样：若随机丢失反例，可能丢失一些重要信息。代表性算法EasyEnsemble是利用集成学习机制，将多数类样本划分若干个集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来看不会丢失信息。

过采样：不能简单的对初始样本进行重复采样，否则会招致严重的过拟合。代表性算法SMOTE，对训练集里的样本进行插值产生额外样本。

阈值移动：直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将式（1）嵌入决策过程中。

解决这类问题主要分重采样、欠采样、调整权值

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。