类别不平衡问题

本文详细探讨了类别不平衡问题,介绍了从多数类别中删除数据的ENN和NearMiss方法,以及为少数类生成新样本的SMOTE和Borderline-SMOTE技术。讨论了集成方法如EasyEnsemble和BalanceCascade算法,以及在线困难样本挖掘和Focal Loss损失函数的应用。阈值移动和调整评价指标如PR曲线和F1值也被提出,以改善模型在不平衡数据集上的表现。
摘要由CSDN通过智能技术生成

详解类别不平衡问题

卢总-类别不平衡问题的方法汇总

从多数类别中删除数据(ENN、Tomeklink、NearMiss)

ENN

NearMiss

非均衡数据处理–如何学习?

为少数类生成新样本(SMOTE、Borderline-SMOTE、ADASYN)

  • Borderline-SMOTE

在这里插入图片描述

集成方法

随机降采样 + Bagging是万金油。

EasyEnsemble算法

属于bagging

在这里插入图片描述
在这里插入图片描述

BalanceCascade算法

  • 使用之前已经形成的集成分类器为下次寻来呢选择多类样本

假阳性率是auc的横轴

在这里插入图片描述

算法层面

目标检测小tricks–样本不均衡处理

Focal Loss — 从直觉到实现

对于不平衡样本导致样本数目较少的类别”欠学习“这一现象,一个很自然的解决办法是增加小样本错分的惩罚代价,并将此代价直接体现在目标函数里。这就是代价敏感的方法,这样就可以通过优化目标函数调整模型在小样本上的注意力。算法层面处理不平衡样本问题的方法也多从代价敏感的角度出发。

在线困难样本挖掘 OHEM

pass

Focal Loss 损失函数的权重调整

Focal Loss — 从直觉到实现

  • 类别权重:少数类获得更大的权重
  • 难度权重:更专注于比较困难的样本

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值