机器学习之数据均衡算法种类大全+Python代码一文详解

本文详细介绍了数据均衡的重要性和应用场景,特别是针对大数据和小数据分布不均衡的问题。文章列举了多种数据均衡算法,包括欠采样(如RandomUnderSampler、ClusterCentroids等)、过采样(如SMOTE、RandomOverSampler等)和组合采样(如SMOTETomek、SMOTEENN)。这些算法在机器学习预处理阶段起到关键作用,以确保模型的准确性。作者强调了数据均衡对于避免模型过拟合或欠拟合的重要性,并提供了各种算法的Python代码实现。
摘要由CSDN通过智能技术生成

目录

前言

一、为什么要做数据均衡?

二、数据场景

1.大数据分布不均衡

2.小数据分布不均衡

三、均衡算法类型

1.过采样

 2.欠采样

3.组合采样

   四、算法具体种类

1.欠采样算法:

(1).RandomUnderSampler

(2).ClusterCentroids

(3).CondensedNearestNeighbour

​(4).EditedNearestNeighbours

(5).RepeatedEditedNearestNeighbours

(6).AllKNN

(7).InstanceHardnessThreshold

(8).NearMiss

​(9).NeighbourhoodCleaningRule

(10)OneSidedSelection

2.过采样算法:

(1).SMOTE

(2).RandomOverSampler

​(3)SMOTEN、BorderlineSMOTE、KMeansSMOTE、SVMSMOTE

(4).ADASYN

​3.组合采样

 (1).SMOTETomek、SMOTEENN

关于每个采样方法的参数和具体细致的原理将会在我的机器学习专栏逐个讲到:机器学习

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢



前言

对于整个数据建模来看,数据均衡算法属于数据预处理一环。当整个数据集从调出数据库到拿到手的时候,对于分类数据集来说类别一般都是不均衡的,整个数据集合也是较为离散的。因此不可能一拿到数据集就可进行建模,类别的不均衡会极大影响建模判断准确率。其中我们希望整个数据集合的类别数目都是相似的,这样其特征数据权重能够更好的计算出来,便于分类。对于预测模型也是如此。数据均衡是整个数学建模以及研究最重要不得不重视的一环,下面我将详细介绍数据均衡的方法以及运用的不同场景。


一、为什么要做数据均衡?

首先在进行实验之前我们要了解数据均衡的重要性,这是一件值得我们去投入众多精力的事。一旦数据均衡做的不好将极大可能影响模型的准确性。数据预处理决定我们模型的上限,在一些重要的数学建模比赛或者是SCI论文中,数据均衡绝对是浓墨重彩的一环。我们可以这样思考:

        我们现在需要对一种疾病进行甄别&

评论 58
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

fanstuck

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值