长尾问题

最新推荐文章于 2024-06-24 11:57:56 发布

种棒影妞

最新推荐文章于 2024-06-24 11:57:56 发布

阅读量1.3k

点赞数 1

分类专栏： cls

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31119155/article/details/109105475

版权

cls 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

不平衡问题的主要解决办法:

重采样
更具体可分为对少样本的过采样，或是对多样本的欠采样。但因过采样容易overfit到minor class，无法学到更鲁棒易泛化的特征，往往在非常不平衡数据上表现会更差；而欠采样则会造成major class严重的信息损失，导致欠拟合发生。
数据合成
即生成和少样本相似的“新”数据。经典方法SMOTE，思路简单来讲是对任意选取的少类样本，用K近邻选取其相似样本，通过对样本线性插值得到新样本。这里会想到和mixup很相似，于是也有imbalance的mixup版本出现.
重加权
对不同类别（甚至不同样本）分配不同权重。注意这里的权重可以是自适应的。此类方法的变种有很多，有最简单的按照类别数目的倒数来做加权，按照“有效”样本数加权，根据样本数优化分类间距的loss加权，等等.
迁移学习
这类方法的基本思路是对多类样本和少类样本分别建模，将学到的多类样本的信息/表示/知识迁移给少类别使用。代表性文章有。
度量学习
本质上是希望能够学到更好的embedding，对少类附近的boundary/margin更好的建模。
元学习/域自适应
分别对头部和尾部的数据进行不同处理，可以去自适应的学习如何重加权，或是formulate成域自适应问题
解藕特征和分类器
最近的研究发现将特征学习和分类器学习解耦，把不平衡学习分为两个阶段，在特征学习阶段正常采样，在分类器学习阶段平衡采样，可以带来更好的长尾学习结果,这也是目前的最优长尾分类算法;

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
长尾问题

不平衡问题的主要解决办法:重采样更具体可分为对少样本的过采样，或是对多样本的欠采样。但因过采样容易overfit到minor class，无法学到更鲁棒易泛化的特征，往往在非常不平衡数据上表现会更差；而欠采样则会造成major class严重的信息损失，导致欠拟合发生。数据合成即生成和少样本相似的“新”数据。经典方法SMOTE，思路简单来讲是对任意选取的少类样本，用K近邻选取其相似样本，通过对样本线性插值得到新样本。这里会想到和mixup很相似，于是也有imbalance的mixup版本出现.重
复制链接

扫一扫

专栏目录

博客等级

码龄9年

136
原创

62
点赞

232
收藏

52
粉丝

关注

私信

热门文章

分类专栏

最新评论

完整版用kalibr标定 camera imu
ten_1010: 博主坑二你是怎么解决的
AAAA
chx2334129583: 您好，请问我是用stmf103c8t6能使用该代码吗？
day 16 第六章二叉树
CSDN-Ada助手: 亲爱的博主，非常感谢您的努力和辛勤付出，创作这篇标题为“day 16 第六章二叉树”的博客。您的用心和热情真是让人钦佩不已！您对二叉树的深入研究和分享，无疑会为读者带来更多的启发和收获。鉴于您的深度探索和丰富知识，我衷心期待您下一篇博客的发布。考虑到您已经介绍了二叉树的基础知识，接下来，您可以深入探讨二叉树的遍历算法或者介绍一些在实际应用中的案例分析。另外，您还可以考虑与二叉树相关的数据结构或算法进行比较和评估，以帮助读者更好地理解其优劣。无论您选择哪个方向，我坚信您会以独特的视角和详尽的分析，给读者带来更多的启发和知识。期待您下次的精彩创作！加油！
day 16 第六章二叉树
无左无右: 所以，又要跑了？
Ubuntu16.04查看cuda和cudnn版本型号
huanghelouzi: cuda有一个运行时的概念

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。