Imbalance data——数据不平衡问题

1.决策树和LR会使结果偏向与训练集多的类别,训练集少的类别会当成噪音或者被忽视

2.没有很好的衡量不平衡问题的评价方法。

1.    重采样 resample

a.      Random under-sampling 随机删除类别多的数据集

                        i.        运行时间和占用内存少

                       ii.        会忽略掉有用的信息,建立规则分类是的有用信息

                      iii.        随机采样是数据集的一个biased sample 不能很好的代表整体,结果也不准确

b.    Random over-sampling 随机复制少数类别样表,增加少数样本的权重

                        i.        和下采样不同,这个没有信息损失

                       ii.         增加了过拟合的可能性,对少数样本会过拟合

c.    Cluster-based under sampling 每个类别分别进行K-means 聚类,

其中在数据预处理步骤中使用聚类技术,多数类中的簇的数量被设置为等于少数类中的数据点的数量。第一种策略使用聚类中心来表示多数类,而第二种策略使用聚类中心的最近邻居。 (第二中有用)

d.    基于聚类的上采样:

对分别对正负类进行采样,多数类分的类别多,然后从不同类别中进行采样,使每个类别数量一样,任意过拟合

e.    Informed over sampling : 生成少数类别数据集

                        i.    可避免精确复制少数数据集带来的过拟合,对有用信息没有损失

i.    SMOTE(Synthe Minority over-samling Technique):对高维数据不是很有效

工具包

https://imbalanced-learn.readthedocs.io/en/stable/

 

 
 
 
 
 

转载于:https://www.cnblogs.com/yutingmoran/p/10443798.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值