Imbalance data——数据不平衡问题

最新推荐文章于 2024-03-03 23:19:24 发布

weixin_30684743

最新推荐文章于 2024-03-03 23:19:24 发布

阅读量449

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/yutingmoran/p/10443798.html

版权

1.决策树和LR会使结果偏向与训练集多的类别，训练集少的类别会当成噪音或者被忽视

2.没有很好的衡量不平衡问题的评价方法。

1. 重采样 resample

a. Random under-sampling 随机删除类别多的数据集

i. 运行时间和占用内存少

ii. 会忽略掉有用的信息，建立规则分类是的有用信息

iii. 随机采样是数据集的一个biased sample 不能很好的代表整体，结果也不准确

b. Random over-sampling 随机复制少数类别样表，增加少数样本的权重

i. 和下采样不同，这个没有信息损失

ii. 增加了过拟合的可能性，对少数样本会过拟合

c. Cluster-based under sampling 每个类别分别进行K-means 聚类，

其中在数据预处理步骤中使用聚类技术，多数类中的簇的数量被设置为等于少数类中的数据点的数量。第一种策略使用聚类中心来表示多数类，而第二种策略使用聚类中心的最近邻居。（第二中有用）

d. 基于聚类的上采样：

对分别对正负类进行采样，多数类分的类别多，然后从不同类别中进行采样，使每个类别数量一样，任意过拟合

e. Informed over sampling : 生成少数类别数据集

i. 可避免精确复制少数数据集带来的过拟合，对有用信息没有损失

i. SMOTE（Synthe Minority over-samling Technique）:对高维数据不是很有效

工具包

https://imbalanced-learn.readthedocs.io/en/stable/

转载于:https://www.cnblogs.com/yutingmoran/p/10443798.html

weixin_30684743

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Imbalance data——数据不平衡问题

1.决策树和LR会使结果偏向与训练集多的类别，训练集少的类别会当成噪音或者被忽视2.没有很好的衡量不平衡问题的评价方法。1. 重采样 resamplea. Random under-sampling 随机删除类别多的数据集 i. 运行时间和占用内存少 ii...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。