目录
(5).RepeatedEditedNearestNeighbours
(9).NeighbourhoodCleaningRule
(3)SMOTEN、BorderlineSMOTE、KMeansSMOTE、SVMSMOTE
关于每个采样方法的参数和具体细致的原理将会在我的机器学习专栏逐个讲到:机器学习
前言
对于整个数据建模来看,数据均衡算法属于数据预处理一环。当整个数据集从调出数据库到拿到手的时候,对于分类数据集来说类别一般都是不均衡的,整个数据集合也是较为离散的。因此不可能一拿到数据集就可进行建模,类别的不均衡会极大影响建模判断准确率。其中我们希望整个数据集合的类别数目都是相似的,这样其特征数据权重能够更好的计算出来,便于分类。对于预测模型也是如此。数据均衡是整个数学建模以及研究最重要不得不重视的一环,下面我将详细介绍数据均衡的方法以及运用的不同场景。
一、为什么要做数据均衡?
首先在进行实验之前我们要了解数据均衡的重要性,这是一件值得我们去投入众多精力的事。一旦数据均衡做的不好将极大可能影响模型的准确性。数据预处理决定我们模型的上限,在一些重要的数学建模比赛或者是SCI论文中,数据均衡绝对是浓墨重彩的一环。我们可以这样思考:
我们现在需要对一种疾病进行甄别&