机器学习之数据均衡算法种类大全+Python代码一文详解

fanstuck

已于 2023-10-24 10:19:57 修改

阅读量5.9k

点赞数 52

分类专栏：一文速学-数学建模常用模型文章标签：机器学习算法 python 数据分析数据挖掘 1024程序员节

于 2022-06-05 20:53:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/master_hunter/article/details/125125741

版权

一文速学-数学建模常用模型专栏收录该内容

81 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了数据均衡的重要性和应用场景，特别是针对大数据和小数据分布不均衡的问题。文章列举了多种数据均衡算法，包括欠采样（如RandomUnderSampler、ClusterCentroids等）、过采样（如SMOTE、RandomOverSampler等）和组合采样（如SMOTETomek、SMOTEENN）。这些算法在机器学习预处理阶段起到关键作用，以确保模型的准确性。作者强调了数据均衡对于避免模型过拟合或欠拟合的重要性，并提供了各种算法的Python代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

一、为什么要做数据均衡？

二、数据场景

1.大数据分布不均衡

2.小数据分布不均衡

三、均衡算法类型

四、算法具体种类

1.欠采样算法：

（1）.RandomUnderSampler

（2）.ClusterCentroids

（3）.CondensedNearestNeighbour

（4）.EditedNearestNeighbours

（5）.RepeatedEditedNearestNeighbours

（7）.InstanceHardnessThreshold

（8）.NearMiss

（9）.NeighbourhoodCleaningRule

（10）OneSidedSelection

（11）. TomekLinks

2.过采样算法：

（2）.RandomOverSampler

（3）SMOTEN、BorderlineSMOTE、KMeansSMOTE、SVMSMOTE

（1）.SMOTETomek、SMOTEENN

关于每个采样方法的参数和具体细致的原理将会在我的机器学习专栏逐个讲到：机器学习

点关注，防走丢，如有纰漏之处，请留言指教，非常感谢

前言

对于整个数据建模来看，数据均衡算法属于数据预处理一环。当整个数据集从调出数据库到拿到手的时候，对于分类数据集来说类别一般都是不均衡的，整个数据集合也是较为离散的。因此不可能一拿到数据集就可进行建模，类别的不均衡会极大影响建模判断准确率。其中我们希望整个数据集合的类别数目都是相似的，这样其特征数据权重能够更好的计算出来，便于分类。对于预测模型也是如此。数据均衡是整个数学建模以及研究最重要不得不重视的一环，下面我将详细介绍数据均衡的方法以及运用的不同场景。

一、为什么要做数据均衡？

首先在进行实验之前我们要了解数据均衡的重要性，这是一件值得我们去投入众多精力的事。一旦数据均衡做的不好将极大可能影响模型的准确性。数据预处理决定我们模型的上限，在一些重要的数学建模比赛或者是SCI论文中，数据均衡绝对是浓墨重彩的一环。我们可以这样思考：

我们现在需要对一种疾病进行甄别&

了解本专栏

超级会员免费看

评论 58

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

fanstuck 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。