非平衡样本处理方法-SMOTE算法

最新推荐文章于 2024-07-15 18:42:33 发布

明星海棠果

最新推荐文章于 2024-07-15 18:42:33 发布

阅读量2.3k

点赞数

分类专栏： machine learning 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011271476/article/details/79706255

版权

machine learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

对于我们日常中训练数据时，原始采集的数据中正负样本比例并非一定是平衡或等比的。

平衡的定义：在金融评分数据领域中的负正样本比例在1：20内都算数据样本平衡。其他领域具体分析；

对于非平衡的数据样本处理方法正常有如下几种思路：

1. 过采样；（会产生过拟合问题）

2. 降采样；（丢失数据）

3. 给正负样本分别赋予权重值，如：给样本数量少类给予相对高的权重比例值。或者样本数据多的类设定相对低的权重比例值。以此达到正负样本数据平衡的要求。

4. 通过前人提出的SMOTE算法来做样本平衡处理；

SMOTE算法本质是一种过采样的处理数据方法。

其优点：克服了单纯过采样的过拟合情况；

缺点：不能对有缺失值和非数值型的变量做处理。

SMOTE算法流程如下：

Step1: 使用最近邻算法采样，计算比例小样本类的K近邻；（K个同类的近邻）

Step2: 从K近邻的数据中随机的选择N个样本进行随机线性插值。（随机的给定变异权重，$N \lep K$）

Step3: 构造新的少数类样本：

$$new = x_{i}+rand(0,1)\cdot \left ( y_{i}-x_{i} \right ),j=1,2,\cdots ,\mathit{N}$$

其中$x_{i}$为样本中某条样本，$y_{j}$为K近邻中随机抽取的样本

Step4: 将新样本和原始数据合成，产生新的数据集。

这里样本之间的权重可以给定不同值，同一样本内不同特征的权重需要相同。

只适合做数值型数据处理

真实环境中，遇到非数值型数据该如何处理：

1. 将非数值型数据转换为数值型，如果类别型数据做one-hot编码处理等。

3. 将算法Step1 中的K近邻方法改为K-Mean聚类方法，。。。待考虑

SMOTE 改进实现待写。。。

明星海棠果

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。