类别不平衡问题

最新推荐文章于 2024-06-25 15:06:28 发布

数学工具构造器

最新推荐文章于 2024-06-25 15:06:28 发布

阅读量503

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TQCAI666/article/details/114087752

版权

本文详细探讨了类别不平衡问题，介绍了从多数类别中删除数据的ENN和NearMiss方法，以及为少数类生成新样本的SMOTE和Borderline-SMOTE技术。讨论了集成方法如EasyEnsemble和BalanceCascade算法，以及在线困难样本挖掘和Focal Loss损失函数的应用。阈值移动和调整评价指标如PR曲线和F1值也被提出，以改善模型在不平衡数据集上的表现。

摘要由CSDN通过智能技术生成

详解类别不平衡问题

卢总-类别不平衡问题的方法汇总

文章目录

从多数类别中删除数据（ENN、Tomeklink、NearMiss）
- ENN
- NearMiss
为少数类生成新样本（SMOTE、Borderline-SMOTE、ADASYN）
集成方法
- EasyEnsemble算法
- BalanceCascade算法
算法层面
- 在线困难样本挖掘 OHEM
- Focal Loss 损失函数的权重调整
阈值移动
评价指标

从多数类别中删除数据（ENN、Tomeklink、NearMiss）

ENN

NearMiss

非均衡数据处理–如何学习？

为少数类生成新样本（SMOTE、Borderline-SMOTE、ADASYN）

Borderline-SMOTE

在这里插入图片描述

集成方法

随机降采样 + Bagging是万金油。

EasyEnsemble算法

属于bagging

在这里插入图片描述

BalanceCascade算法

使用之前已经形成的集成分类器为下次寻来呢选择多类样本

假阳性率是auc的横轴

在这里插入图片描述

算法层面

目标检测小tricks–样本不均衡处理

Focal Loss — 从直觉到实现

对于不平衡样本导致样本数目较少的类别”欠学习“这一现象，一个很自然的解决办法是增加小样本错分的惩罚代价，并将此代价直接体现在目标函数里。这就是代价敏感的方法，这样就可以通过优化目标函数调整模型在小样本上的注意力。算法层面处理不平衡样本问题的方法也多从代价敏感的角度出发。

在线困难样本挖掘 OHEM

pass

Focal Loss 损失函数的权重调整

Focal Loss — 从直觉到实现

类别权重：少数类获得更大的权重
难度权重：更专注于比较困难的样本

在这里插入图片描述

最低0.47元/天解锁文章

数学工具构造器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

数学工具构造器 CSDN认证博客专家 CSDN认证企业博客

码龄6年

503: 原创

3万+: 周排名

219万+: 总排名

41万+: 访问

: 等级

8033: 积分

206: 粉丝

171: 获赞

130: 评论

562: 收藏

私信

关注

热门文章

分类专栏

最新评论

编写C++代码理解原码和补码
做而论道_CS: 所谓的：机器数符号位原码反码 ... 都是计算机专家在【忽悠、卖拐】而已。正负数值，存入计算机，都是以 “补码” 存放的。计算机中，根本就没有原码和反码。除非，你偏要自寻烦恼，偏要在计算机中，存入原码和反码。既然没有原码反码，那么，取反加一，计算机也就不能做了。其实，所谓的 “补码”，也是正常的数字。　也并非一定是二进制数。你看十进制吧，两位数：0 ~ 99。可以有：27 + 99 = (一百) 26 也可以：27 － 1 = 26 如果你忽略进位，依旧保持两位数，　这两种算法的功能，就是相同的！就是说，当你舍弃了进位：　负数，就能用正数代替；　加法，竟然就能实现减法运算！在计算机中，舍弃进位，会怎样？　就可以简化硬件。　用一个加法器，便可横行天下！由此可知，“补码”，根本就不是什么新鲜事。　“补码” 关键，是：【舍弃进位】。　并不是：符号位原码反码取反加一。－－－－－－－－－－－用两位十进制运算时，舍弃进位，就是【减去一百】。那么，加 99，再减 100，当然就是 “－1” 了。计算机使用的，是二进制数。八位二进制数是：0000 0000 ~ 1111 1111。相当于十进制数：0 ~ 255。如果出现 “进位 = 1”，就是：2^8 = 256。那么，加 255，再减 256，这也就是 “－1” 了。所以：+255 (1111 1111)，就是：－1；同理：+254 (1111 1110)，就是：－2；　　　+253 (1111 1101)，就是：－3；　　　。。。　。。。　　　+128 (1000 0000)，即：－128。以上这些正数，就是计算机专家 “发明” 的补码了。由此可知：　所谓的 “补码”，也是正常的数字。　之所以能代替负数，关键是【舍弃了进位】。　“补码” 与 “符号位原码反码” 也没有任何关系。至此，你肯定能看出关系式：　负数的补码 = 256 + 该负数。一般化，就是：　负数的补码 = 2^n + 该负数。　n，是二进制数的位数。例：求－31 的 “补码” 是多少？解：256－31 = 225 = 1110 0001 (二进制)。　这不就求出来了吗？　　哪还用琢磨什么：符号位原码取反。。。！　　　还要啥自行车啊！
UltraOpt：比HyperOpt更强的超参优化库
2401_84289284: 为什么安装运行代码后出现Invalid optimizer string-indicator: ETPE呢？
C++ 学习
不知名的憨包: 这是什么课程啊，在哪里看啊
ASTGCN
gsagsfasds: 你好，请问你使用原mxnet版本的代码跑通了吗
sdf转smi
野蛮北野1: 作者，您好我想请问一下这个代码是什么意思、我没太看懂（初学者我是）

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。