数据不均衡&长尾学习
文章平均质量分 86
一颗仙桃儿
就算是废柴废柴废柴那也要加油!
展开
-
论文阅读《Deep Long-Tailed Learning: A Survey》综述(二)
长尾综述,第四节,提出的新指标原创 2022-07-18 10:54:19 · 799 阅读 · 1 评论 -
论文阅读《Deep Long-Tailed Learning: A Survey》综述(三)
长尾摘要翻译,6应用场景和7结论原创 2022-07-18 10:33:25 · 703 阅读 · 0 评论 -
论文阅读《Deep Long-Tailed Learning: A Survey》综述(一)
Deep Long-Tailed Learning: A Survey深度长尾学习是视觉识别中最具挑战性的问题之一,旨在从大量遵循长尾类分布的图像中训练出表现良好的深度模型。在过去的十年中,深度学习已经成为学习高质量图像表征的强大识别模型,并在通用视觉识别方面取得了显著的突破。然而,长尾类不平衡是实际视觉识别任务中的一个常见问题,它往往限制了基于深度网络的识别模型在实际应用中的实用性,因为它们很容易偏向优势类,而在尾部类上表现不佳。为了解决这个问题,近年来进行了大量的研究,在深度长尾学习领域取得了可喜原创 2022-07-18 10:16:52 · 1757 阅读 · 0 评论 -
LVIS 数据集
LVIS长尾数据集简介原创 2022-07-07 20:41:03 · 6064 阅读 · 2 评论 -
论文阅读Adaptive Logit Adjustment Loss for Long-Tailed Visual Recognition
AAAI 2022论文:https://arxiv.org/pdf/2104.06094v2.pdf摘要现实世界中的数据往往呈现出长尾标签分布,这对视觉识别中的神经网络训练提出了巨大挑战。现有方法主要从数据量的角度来解决这个问题,即每个类中的样本数。具体来说,他们更关注尾类,比如对 logit 进行更大的调整。然而,在训练过程中,数据的数量和难度是两个相互交织、同样至关重要的问题。对于一些尾类来说,它们的实例的特征是鲜明的,有判别力的,也能带来满意的准确率;对于一些头类,虽然有足够的样本,但与其他原创 2022-05-30 19:44:36 · 1350 阅读 · 0 评论 -
基于类的有效数抽样CBEN
《Long-tailed Visual Recognition via Gaussian Clouded LogitAdjustmentAdjustme》设{x, y}∈T表示训练集T中的一个样本{x, y}, C类中有N个样本,且y∈{1,…, C}是ground truth标签。输入图像x的softmax损失函数为:其中zj表示类j的预测logit。我们用下标y表示目标类,即zy表示目标logit, zj表示非目标logit, j≠ y表示非目标logit。在反向传播中,zi上的梯度由:在原创 2022-04-21 19:35:55 · 3100 阅读 · 0 评论 -
论文阅读:《Bag of Tricks for Long-Tailed Visual Recognition with Deep Convolutional Neural Networks》
基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来,挑战性长尾分布上的视觉识别技术取得了很大的进展,主要基于各种复杂的范式(如元学习)。除了这些复杂的方法外,对训练程序的简单改进也有一定的贡献。这些改进(也称为技巧)虽小但很有效,例如调整数据分布或丢失函数。然而,不同的技巧可能会相互冲突。如果用户使用这些与长尾相关的技巧不当,可能会导致识别准确度比预期的更差。不幸的是,在文献中还没有关于这些技巧的科学指导。本文首先收集了已有的长尾视觉识别技巧,然后进行了广泛系统的实验,给出了详细的实验指导,并获得了这些原创 2022-04-15 15:14:54 · 3551 阅读 · 2 评论 -
论文阅读:《Feature Space Augmentation for Long-Tailed Data》
长尾数据的特征空间增强ECCV 2020 springer摘要现实世界的数据往往遵循长尾分布,因为每个类别的频率通常是不同的。例如,一个数据集可能有大量代表性不足的类,以及少数有足够数据的类。然而,代表数据集的模型通常被期望在不同的类中具有合理的同质性表现。引入类平衡损失和关于数据重新采样和增强的先进方法是缓解数据不平衡问题的最佳做法之一。然而,关于代表性不足的类的另一部分问题将不得不依赖额外的知识来恢复缺失的信息。在这项工作中,我们提出了一种新的方法来解决长尾问题,即用从样本充足的类中学习到的特征来原创 2022-04-01 19:39:26 · 1319 阅读 · 0 评论 -
论文阅读《The Majority Can Help The Minority: Context-rich Minority Oversampling 》
类数据不平衡问题是由于少数类数据的缺乏导致分类器的泛化性能下降。在本文中,我们提出了一种新颖的少数群体过采样方法,利用多数群体的丰富上下文作为背景图像来增加多样化的少数群体样本。为了使少数群体的样本多样化,我们的关键思想是将来自少数群体的前景patch粘贴到背景丰富的来自多数群体的背景图像上。该方法简单,易于与现有的长尾识别方法相结合。我们通过大量的实验和消融研究,实证地证明了所提出的过采样方法的有效性。在没有任何架构变化或复杂算法的情况下,我们的方法在各种长尾分类基准上实现了最先进的性能。我们的代码将在链原创 2022-03-25 11:03:01 · 2921 阅读 · 0 评论 -
论文阅读:《Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax》
基于深度学习模型的长尾大词汇量对象检测是一项具有挑战性和高要求的任务,但仍未得到充分的研究。在这项工作中,我们提供了第一个系统的分析,最先进的模型在长尾分布前的表现不佳。我们发现,现有的检测方法在数据集极其倾斜的情况下无法建模少数类,这可能导致分类器在参数大小方面的不平衡。由于检测和分类的本质区别,直接将长尾分类模型应用于检测框架并不能解决这一问题。在本工作中,我们提出了一种新的平衡组 balanced group softmax(BAGS)模块,通过组明智训练来平衡检测框架中的分类器。它隐式地调原创 2021-12-28 11:02:19 · 2351 阅读 · 9 评论 -
论文阅读 Adaptive Class Suppression Loss for Long-Tail Object Detection 翻译
这一篇也是关于解决对长尾条件下的目标检测。我觉得与《Focal loss》相似,都是在交叉熵损失函数上进行了优化。CVPR2021链接: 论文链接.代码:链接: 开源代码.提出了一种新的动态类别抑制损失 ACSL摘要针对大词汇量目标检测任务的长尾分布问题,现有的方法通常将整个类别划分为若干组,并对每组采用不同的策略进行处理。这些方法带来了以下两个问题。一个是相似大小的相邻类别之间的训练不一致,另一个是学习模型缺乏对尾部类别的区分,尾部类别在语义上与头部类别相似。本文设计了一种新的自适应类抑制损原创 2021-10-20 16:20:18 · 1774 阅读 · 7 评论 -
论文阅读Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss
Abstract当训练数据集存在严重的类不平衡时,深度学习算法的表现可能会很差,但测试标准需要对不太频繁的类进行良好的泛化。我们设计了两种新的方法来提高这种情况下的性能。首先,我们提出了一个理论上的标签分布感知边际损失(LDAM),其动机是最小化基于边际的泛化边界。在训练过程中,这种损失取代了标准的交叉熵目标,并可以应用于先前的训练策略,如重加权或重采样类不平衡。其次,我们提出了一个简单而有效的训练计划,将重新加权推迟到初始阶段之后,允许模型学习初始表示,同时避免了与重新加权或重新抽样相关的一些复杂性。原创 2021-09-17 17:48:58 · 5399 阅读 · 7 评论 -
Focal Loss 论文阅读理解
前面还有一篇focal loss 的翻译,但是来不及翻译完晚上就要组会了,但是总算是自己也把这篇论文理解完了。下面是PPT的截图,记录一下。这个是从论文综述《Learning from Imbalanced Data》里面的对于数据不均衡的一个定义,我觉得很不错。这张小猫的图我觉得可以很好地表达难易样本的定义问题,一目了然。Table1是关于RetinaNet和Focal Loss的一些实验结果。(a)是在交叉熵的基础上加上参数a,a=0.5就表示传统的交叉熵,原创 2021-09-07 15:00:34 · 305 阅读 · 0 评论 -
Learning Deep Representation for Imbalanced Classification翻译阅读
Learning Deep Representation for Imbalanced Classification不平衡分类的深度表示学习CVPR2016的文章引用量谷歌学术475接着边翻译边思考吧摘要视觉域的数据通常表现出高度倾斜的类分布,即大多数数据属于少数多数类,而少数类只包含少量实例。为了缓解这一问题,基于深度卷积神经网络(CNN)的现代分类方法通常遵循经典策略,如类重新抽样或代价敏感训练。在本文中,我们进行了广泛而系统的实验,以验证这些经典方案在类别不平衡数据上的表示学习的有效性。我原创 2021-08-27 17:31:13 · 1078 阅读 · 0 评论 -
Learning from Imbalanced Data 翻译和阅读笔记
Learning from Imbalanced Data发表在IEEE《TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》,09年的一篇好文章,综述类型的吧,比较全面地介绍了数据不均衡的知识。当时看谷歌学术上引用量6504。导师也给我圈了这篇文章让我看。就边翻译边学习边记录。论文下载链接:https://ieeexplore.ieee.org/abstract/document/5128907.摘要随着数据可用性在许多大型、复杂和网络化系统(如监视、原创 2021-08-26 17:07:19 · 1230 阅读 · 0 评论 -
SMOTE 和 Borderline-SMOTE论文学习
SMOTE 和 Borderline-SMOTE论文学习前几天组会汇报数据不均衡的一些知识和论文,有关经典的算法SMOTE和Borderline-SMOTE.导师也帮忙筛选了将近十篇论文,有时间整理出来发在博客上,有相关学习方向的大家一起讨论交流!论文名称:SMOTE: Synthetic Minority Over-sampling Technique(JAIR 2002)链接: https://arxiv.org/abs/2006.07529.论文名称:Borderline-SMOTE:原创 2021-08-19 16:26:06 · 2205 阅读 · 0 评论