不均衡数据处理方法学习笔记

实际生产数据中会出现大量不均衡数据,如果直接对原始数据进行模型训练会使结果失真,达不到预期
不均衡数据处理方法主要有三种:

一.欠采样:常用的是随机采样
缺陷:将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息


二.过采样:1.简单复制少数类样本,2.扩大数据集
缺陷:可能会导致分类器学习出现过拟合现象

三.SMOTE过采样:利用特征空间中现存少数类样本之间的相似性来建立人工数据的(基于“插值”来为少数类合成新的样本)
1. 首先从该少数类的全部 T 个样本中找到样本 xi 的 k 个近邻(例如用欧氏距离),记为 xi(near),near∈{1,...,k} ;
2. 然后从这 k 个近邻中随机选择一个样本 xi(nn) ,再生成一个 0 到 1 之间的随机数 ζ1 ,从而合成一个新样本 xi1 :
xi1=xi+ζ1⋅(xi(nn)−xi)
3. 将步骤2重复进行 N 次,从而可以合成 N 个新样本:xinew,new∈1,...,N。
 优点
有助于简单打破过抽样所产生的关系
使得分类器的学习能力得到显著提高
缺陷
体现在过分泛化问题和方差

Base:目前一些算法对不均衡数据也同样可以处理,比如lightGBM可以通过is_unbalance去设置数据集是否是均衡数据

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值