深度学习中样布不平衡 | Long tail（长尾）问题如何解决？

iiiKyriemee

已于 2024-03-01 19:41:29 修改

阅读量1k

点赞数 7

文章标签：深度学习人工智能

于 2024-03-01 16:12:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46025765/article/details/136396755

版权

什么是Long tail（长尾）问题？

在BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition这篇论文中提到了这个词汇的解释：

解释：少数类（头类）占用大部分数据，而大多数（尾类）只有少量的数据。（自动驾驶中的Corner cases就是属于长尾数据问题的一种）

长尾问题的影响？

举个例子，在一个欺诈识别的案例中，好坏样本的占比是1000：1，而如果我们直接拿这个比例去学习模型的话，因为扔进去模型学习的样本大部分都是好的，就很容易学出一个把所有样本都预测为好的模型，而且这样预测的概率准确率还是非常高的。

而模型最终学习的并不是如何分辨好坏，而是学习到了”好远比坏的多“这样的先验信息，凭着这个信息把所有样本都判定为“好”就可以了。这样就背离了模型学习去分辨好坏的初衷了。

所以，样本不均衡带来的根本影响是：模型会学习到训练集中样本比例的这种先验性信息，以致于实际预测时就会对多数类别有侧重（可能导致多数类精度更好，而少数类比较差）。

如何解决长尾问题？

1. 样本层面

1.1 采样

·欠采样：减少多数类的数量（随机欠采样，NearMiss，ENN），但是当head class和tail class类别样本量悬殊巨大时，用欠采样是不切实际的。

·过采样：尽可能多地增加少数类的样本数量（随机过采样或数据增强），可能导致过拟合。

·还可以结合两者做混合采样（Smote+ENN）

1.2 数据增强

·基于样本变换的数据增强：单样本增强：几何变换、颜色变换、随机裁剪、随机擦除、添加噪声等；多样本增强：组合及转换多个样本，mixup、mosaic等。

·基于深度学习的数据增强：利用生成模型（如VAE、GAN）来生成样本，更复杂但生成的样本也更多样。

2. 损失函数层面

2.1 重加权

主要在训练loss中，给不同的类别的loss设置不同的权重，对tail类别loss设置更大的权重，权重可以设置为样本数量的倒数，或者样本数量平方根的倒数(更平滑一些)，这是在class level上调整权重。也可以在sample level上调整权重，困难样本的权重大，简单样本的权重小。

2.2 OHEM

OHEM（Online Hard Example Mining），即在线难样本挖掘，选择一些hard examples作为训练的样本，针对性地改善模型效果。

2.3 Focal loss

对标准的交叉熵损失引入系数因子，实现根据预测准确度自适应调整样本对损失的贡献程度。

3. 模型层面

3.1 采样+集成学习

重复组合少数类样本与抽样的同样数量的多数类样本，训练若干的分类器进行集成学习。

3.2 异常检测

类别不平衡很极端的情况下（比如少数类只有几十个样本），将分类问题考虑成异常检测（anomaly detection）问题可能会更好。异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据，也被称为离群点、异常值检测等等。

参考链接：

一文解决样本不均衡（全）

样本不平衡 | 长尾(long-tailed)问题的解决方案 - 知乎

在深度学习中的 long tail （长尾）解释-CSDN博客

关注

7
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
深度学习中样布不平衡 | Long tail（长尾）问题如何解决？

在BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition这篇论文中提到了这个词汇的解释：少数类（头类）占用大部分数据，而大多数（尾类）只有少量的数据。（自动驾驶中的Corner cases就是属于长尾数据问题的一种）
复制链接

扫一扫

iiiKyriemee CSDN认证博客专家 CSDN认证企业博客

码龄5年

3: 原创

161万+: 周排名

19万+: 总排名

1396: 访问

: 等级

45: 积分

18: 粉丝

14: 获赞

1: 评论

29: 收藏

私信

关注

热门文章

最新评论

VAE到CVAE
CSDN-Ada助手: 恭喜您写了第三篇博客，标题为“VAE到CVAE”！持续创作是非常了不起的事情，您的热情与努力让我们看到了您的专业精神。希望您能继续保持这样的创作热情，不断探索更多有趣的主题，为读者带来更多有价值的内容。如果可以的话，建议您在下一篇博客中深入探讨一些实践经验或者案例分析，让读者更直观地了解您的观点与见解。期待您更多的精彩作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
深度学习中样布不平衡 | Long tail（长尾）问题如何解决？
CSDN-Ada助手: 非常棒的博文！你对深度学习中的长尾问题做了很好的解释，让我对这个概念有了更深的理解。希望你能继续分享关于深度学习和机器学习的知识，这对我们这些初学者真的很有帮助。另外，我觉得在处理长尾问题时，可以考虑使用集成学习方法，比如Bagging和Boosting，这些方法在处理不平衡数据集时效果非常好。希望你能在以后的博文中分享一些关于集成学习的内容，我对此非常感兴趣！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
最大似然估计？
CSDN-Ada助手: 恭喜你开始写博客！“最大似然估计”是一个非常有深度的话题，你的文章内容很有启发性。接下来，建议你可以多举一些实际例子来说明这个概念，让读者更容易理解。同时也可以探讨一下最大似然估计在实际问题中的应用，这样会更加丰富你的博客内容。期待看到你更多的精彩作品！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。