不均衡数据处理方法学习笔记

最新推荐文章于 2023-11-08 15:41:26 发布

千语_肉丸子

最新推荐文章于 2023-11-08 15:41:26 发布

阅读量980

点赞数

分类专栏：数据挖掘文章标签：采样方法欠采样过采样 SMOTE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012535605/article/details/84139656

版权

数据挖掘专栏收录该内容

8 篇文章 1 订阅

订阅专栏

实际生产数据中会出现大量不均衡数据，如果直接对原始数据进行模型训练会使结果失真，达不到预期
不均衡数据处理方法主要有三种：

一.欠采样：常用的是随机采样
缺陷：将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息

二.过采样：1.简单复制少数类样本，2.扩大数据集
缺陷：可能会导致分类器学习出现过拟合现象

三.SMOTE过采样：利用特征空间中现存少数类样本之间的相似性来建立人工数据的（基于“插值”来为少数类合成新的样本)
1. 首先从该少数类的全部 T 个样本中找到样本 xi 的 k 个近邻（例如用欧氏距离），记为 xi(near),near∈{1,...,k} ；
2. 然后从这 k 个近邻中随机选择一个样本 xi(nn) ，再生成一个 0 到 1 之间的随机数 ζ1 ，从而合成一个新样本 xi1 ：
xi1=xi+ζ1⋅(xi(nn)−xi)
3. 将步骤2重复进行 N 次，从而可以合成 N 个新样本：xinew,new∈1,...,N。
优点
有助于简单打破过抽样所产生的关系
使得分类器的学习能力得到显著提高
缺陷
体现在过分泛化问题和方差

Base:目前一些算法对不均衡数据也同样可以处理，比如lightGBM可以通过is_unbalance去设置数据集是否是均衡数据

千语_肉丸子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。