如何处理不平衡数据

PKU_Jade

于 2017-10-16 22:21:16 发布

阅读量1.3k

点赞数

文章标签：数据算法

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

采样法

过采样和欠采样

过采样：过拟合（学习到小类别样本中的噪声）
欠采样：欠拟合（丢失大类别样本中的重要数据）

SMOTE算法

找到小类别样本中的k个近邻，然后在他们之间的连线上取点，作为新的样本。

缺点：容易过拟合

Borderline-SMOTE

其与SMOTE的不同是：SMOTE是对每一个minority样本产生综合新样本，而Borderline-SMOTE仅对靠近边界的minority样本创造新数据。

Sampling with Data Cleaning Techniques

Tomek links用于去除重叠数据，其主要思想是：找出最近距离的2个样本（这2个样本属于不同的类），然后将这2个样本都去除，直到某一样本周围的近邻都是属于同一类。
这里写图片描述

代价敏感方法

采样方法主要考虑正负例的分布，而代价敏感方法主要考虑误分类样本的代价，通过代价矩阵来度量。

也就是说，正负样本不平衡的问题是如果两类错误的代价都相同的话，则学习的目标就相当于最大化accuracy，而如果我们增大将小类别识别为大类别类的代价的话，就相当于考虑了模型召回率或precision。

这样就会使得模型更注意小类别的准确性。

核算法

不平衡数据的主动学习算法

例如在SVM中每次选择距离分离超平面最近的样本点，这样最后选择的样本点比例不会出现太多的差别，

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。