CV每日论文--2024.5.16

最新推荐文章于 2024-05-31 09:00:42 发布

计算机视觉每日论文

最新推荐文章于 2024-05-31 09:00:42 发布

阅读量727

点赞数 27

文章标签：计算机视觉人工智能深度学习算法机器学习

本文链接：https://blog.csdn.net/u012854516/article/details/138992960

版权

1、Ambiguous Annotations: When is a Pedestrian not a Pedestrian?

中文标题：不明确的注释：什么时候行人不是行人？

简介：人工标注的数据集广泛用于机器学习模型的训练和测试。近年来，研究者对标签质量越来越关注。然而，确定一个分配的标签是否正确并不总是能够客观地进行。本文旨在探讨自动驾驶数据集注释中的模糊性，作为衡量数据质量的一个重要维度。我们的实验结果表明，通过从训练中排除高度模糊的数据，可以提高最先进的行人检测器在LAMR、精度和F1分数等模型性能上的表现，同时节省训练时间和注释成本。此外，我们还证明了为了安全地移除模糊实例并确保训练数据的代表性，理解数据集和所研究类别的属性是至关重要的。

2、EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training

中文标题：EfficientTrain++：高效视觉骨干训练的通用课程学习

简介：现代视觉骨干网络通常展现出卓越的性能，但它们的训练过程通常代价高昂。为了解决这个问题，我们提出了一种贡献，将课程学习的思想推广到原始公式之外，即通过使用更容易到更难的数据来训练模型。具体而言，我们重新定义了训练课程为软选择函数，在训练过程中逐步揭示每个示例中更难的模式，而不是执行更容易到更难的样本选择。

我们的工作受到视觉骨干网络学习动态的有趣观察的启发。在训练的早期阶段，模型主要学习识别数据中一些"容易学习"的判别模式。这些模式在频率和空间域上包含较低频率的组成部分，并且不需要失真或数据增强来包含自然图像内容。基于这些发现，我们提出了一种课程表的方法，其中模型始终利用每个学习阶段的所有训练数据，但首先暴露于每个示例中的"容易学习"模式，然后逐渐引入更难的模式。

为了以计算有效的方式实现这一想法，我们在输入的傅里叶频谱中引入了一个裁剪操作，使得模型只能从较低频率的组成部分进行学习。然后，我们展示了通过调节数据增强的强度可以轻松实现自然图像内容的暴露。最后，我们将这些方面整合在一起，并设计了一个带有定制搜索算法的课程表。我们提出的方法EfficientTrain++简单通用，但效果惊人。它在不牺牲准确性的情况下，将各种流行模型在ImageNet-1K/22K上的训练时间缩短了1.5-3.0倍。此外，它还在自监督学习（例如MAE）中展现出了有效性。

3、Image to Pseudo-Episode: Boosting Few-Shot Segmentation by Unlabeled Data

中文标题：图像到伪片段：通过未标记数据增强少镜头分割

简介：Few-shot segmentation（FSS）旨在训练一个模型，该模型可以使用少量标记样本从新类中分割出对象。然而，模型的有限泛化能力导致在缺乏来自新类足够标记数据时性能下降。鉴于大量未标记数据的存在，利用这些数据有望提高泛化能力。为了充分利用未标记数据，我们提出了一种名为图像到伪剧集（IPE）的新方法，用于从未标记数据生成伪剧集。

具体而言，我们的方法由两个模块组成，即伪标签生成模块和剧集生成模块。伪标签生成模块利用谱聚类算法从未标记图像生成伪标签，而剧集生成模块则通过数据增强方法从伪标记图像生成伪剧集。通过广泛的实验，我们在PASCAL-$5^i$和COCO-$20^i$数据集上验证了我们方法的性能，取得了在FSS方面的最先进结果。

计算机视觉每日论文

关注

27
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
CV每日论文--2024.5.16

我们的实验结果表明，通过从训练中排除高度模糊的数据，可以提高最先进的行人检测器在LAMR、精度和F1分数等模型性能上的表现，同时节省训练时间和注释成本。在训练的早期阶段，模型主要学习识别数据中一些"容易学习"的判别模式。基于这些发现，我们提出了一种课程表的方法，其中模型始终利用每个学习阶段的所有训练数据，但首先暴露于每个示例中的"容易学习"模式，然后逐渐引入更难的模式。通过广泛的实验，我们在PASCAL-$5^i$和COCO-$20^i$数据集上验证了我们方法的性能，取得了在FSS方面的最先进结果。
复制链接

扫一扫