如何处理不平衡数据

采样法

过采样和欠采样

过采样:过拟合(学习到小类别样本中的噪声)
欠采样:欠拟合(丢失大类别样本中的重要数据)

SMOTE算法

找到小类别样本中的k个近邻,然后在他们之间的连线上取点,作为新的样本。

缺点:容易过拟合

Borderline-SMOTE

其与SMOTE的不同是:SMOTE是对每一个minority样本产生综合新样本,而Borderline-SMOTE仅对靠近边界的minority样本创造新数据。

Sampling with Data Cleaning Techniques

Tomek links用于去除重叠数据,其主要思想是:找出最近距离的2个样本(这2个样本属于不同的类),然后将这2个样本都去除,直到某一样本周围的近邻都是属于同一类。
这里写图片描述

代价敏感方法

采样方法主要考虑正负例的分布,而代价敏感方法主要考虑误分类样本的代价,通过代价矩阵来度量。

也就是说,正负样本不平衡的问题是如果两类错误的代价都相同的话,则学习的目标就相当于最大化accuracy,而如果我们增大将小类别识别为大类别类的代价的话,就相当于考虑了模型召回率或precision。

这样就会使得模型更注意小类别的准确性。

核算法

不平衡数据的主动学习算法

例如在SVM中每次选择距离分离超平面最近的样本点,这样最后选择的样本点比例不会出现太多的差别,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值