样本非平衡问题

最新推荐文章于 2024-08-21 20:54:16 发布

reneliury

最新推荐文章于 2024-08-21 20:54:16 发布

阅读量9.5k

点赞数 5

文章标签：机器学习

本文链接：https://blog.csdn.net/z88508468/article/details/50911010

版权

样本非平衡问题在机器学习中会导致分类效果不佳。为解决这个问题，通常采用重构数据集的方法，如欠采样（包括随机欠采样、有选择删除和Informed undersampling）和过采样（随机过采样及SMOTE算法）。此外，还可以从算法层面改进，调整损失函数权重或使用adacost、adaboost等方法来提升模型性能。

摘要由CSDN通过智能技术生成

问题定义：

正负样本比例为100:1 甚至1000:1，需要在分布如此不均匀的数据集中学习到有用信息。

危害：

造成分类器在多数类精度较高，少数类的分类精度很低。以最大分类精度为目标，导致算法提高多数样本分类精度而忽略小样本的预测精度。

原因：以逻辑回归为例，以优化总体精度为目标，不同类别的误分类情况产生的误差相同，考虑一个500:1的数据集的话传统学习算法在不平衡数据集中会有较大局限性。（因此可以通过加大少数样本权值的方式，权值可以取样本个数的倒数）

解决方案：

1、重构数据集：欠采样&过采样

1）欠采样：

a.随机欠采样。

从多数类中随机选择少量样本再合并原有少数类样本作为新的训练数据集。分为有放回和无放回两种。无放回欠采样在多数类被采样后不会再被重复采样。
缺点：易丢失多数类的重要信息。

b.通过一定规则有选择的去掉对分类作用不大，即原理分类边界或者引起数据重叠的多数样本。（网页分类初过滤）

最低0.47元/天解锁文章

reneliury

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫