【前沿热点顶会】CVPR 2025和目标分类、检测、分割、重识别有关的论文

最新推荐文章于 2025-06-08 13:52:04 发布

平安顺遂事事如意

最新推荐文章于 2025-06-08 13:52:04 发布

阅读量4.7k

点赞数 26

CC 4.0 BY-SA版权

分类专栏：顶刊顶会论文合集文章标签：分类数据挖掘人工智能 CVPR 检测分割重识别

本文链接：https://blog.csdn.net/A_Student10000/article/details/145954233

顶刊顶会论文合集专栏收录该内容

20 篇文章

订阅专栏

SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images

遥感图像在农业、水资源、军事、救灾等领域发挥着不可替代的作用。像素级解释是遥感影像应用的一个关键方面;但是，一个普遍的限制仍然是需要大量的手动注释。为此，我们尝试将开放词汇语义分割（OVSS）引入遥感环境中。然而，由于遥感图像对低分辨率特征的敏感性，预测掩码中会出现扭曲的目标形状和不拟合的边界。为了解决这个问题，我们提出了一个简单而通用的上采样器 SimFeatUp，以无训练的风格恢复深度特征中丢失的空间信息。此外，基于对 CLIP 中局部 patch token 对 [CLS] token 异常响应的观察，我们建议执行一个简单的减法运算来减轻 patch token 中的全局偏差。在 17 个遥感数据集上进行了广泛的实验，涵盖语义分割、建筑物提取、道路检测和洪水检测任务。我们的方法在 4 项任务上比最先进的方法平均提高了 5.8%、8.2%、4.0% 和 15.3%。所有代码均已发布。\url{此 https URL}

RSAR: Restricted State Angle Resolver and Rotated SAR Benchmark

旋转目标检测在光学遥感领域取得了重大进展。然而，合成孔径雷达（SAR）领域的进展滞后，主要是由于缺乏大规模的数据集。对这样的数据集进行注释是低效且昂贵的。一个有希望的解决方案是使用弱监督模型（例如，仅用可用的水平盒训练）在手动校准之前生成伪旋转盒供参考。遗憾的是，现有的弱监督模型在预测物体角度时精度有限。先前的工作试图通过使用角解析器将角解耦成余弦和正弦编码来增强角度预测。在这项工作中，我们首先从维度映射的统一角度重新评估这些解析器，并揭示它们具有相同的缺点：这些方法忽略了这些编码中固有的单位周期约束，容易导致预测偏差。为了解决这个问题，我们提出了单位周期解析器，它结合了单位圆约束损失来提高角度预测精度。我们的方法可以有效地提高现有最先进的弱监督方法的性能，甚至超过现有光学基准（即DOTA-v1.0数据集）上的完全监督模型。在UCR的帮助下，我们进一步标注并引入了迄今为止最大的多类旋转SAR目标检测数据集RSAR。在RSAR和光学数据集上的大量实验表明，我们的UCR提高了角度预测的精度。我们的数据集和代码可以在这个https URL中找到。

MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt

多模态目标再识别（Multi-modal object reidentification, ReID）旨在利用不同模态图像的互补信息来检索特定目标。最近，像CLIP这样的大规模预训练模型在传统的单模态对象ReID任务中表现出了令人印象深刻的性能。然而，它们在多模态对象ReID中仍未被探索。此外，现有的多模态聚合方法在处理来自不同模态的长序列时存在明显的局限性。为了解决上述问题，我们为多模态对象ReID引入了一个名为MambaPro的新框架。具体来说，我们首先使用一个并行前馈适配器（PFA）使CLIP适应多模态对象ReID。然后，我们提出了协同残差提示（SRP）来指导多模态特征的联合学习。最后，利用曼巴对长序列的优越可扩展性，我们引入曼巴聚合（MA）来有效地模拟不同模式之间的相互作用。因此，MambaPro可以以更低的复杂性提取更健壮的特征。在三个多模态目标ReID基准（即RGBNT201， RGBNT100和MSVR310）上进行的大量实验验证了我们提出的方法的有效性。

MobileMamba: Lightweight Multi-Receptive Visual Mamba Network

以前对轻量化模型的研究主要集中在cnn和基于transformer的设计上。cnn凭借其局部接受域，难以捕获远程依赖关系，而Transformer尽管具有全局建模能力，但在高分辨率场景中受到二次计算复杂性的限制。近年来，状态空间模型由于其线性计算复杂性在视觉领域得到了广泛的应用。尽管它们的FLOPs很低，但目前基于mamba的轻量级模型显示出次优吞吐量。在这项工作中，我们提出了MobileMamba框架，它平衡了效率和性能。我们设计了一个三级网络，显著提高了推理速度。在细粒度层面，我们引入了多接收场特征交互（MRFFI）模块，包括远程小波变换增强曼巴（WTE-Mamba）、高效多核深度卷积（MK-DeConv）和消除冗余反同一性组件。该模块集成了多感受野信息，增强了高频细节提取。此外，我们采用培训和测试策略来进一步提高性能和效率。MobileMamba在Top1上达到了83.6%，超过了现有的最先进的方法，最大×21 ^比GPU上的LocalVim快。在高分辨率下游任务上的大量实验表明，MobileMamba超越了目前的高效模型，在速度和精度之间实现了最佳平衡。

AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation

遥感图像目标检测（RSIOD）旨在识别和定位卫星或航空图像中的特定目标。然而，当前RSIOD数据集中缺乏标记数据，这极大地限制了当前检测算法的性能。尽管现有的技术，例如数据增强和半监督学习，可以在一定程度上缓解这种稀缺性问题，但它们严重依赖于高质量的标记数据，并且在稀有对象类中表现较差。为了解决这一问题，本文提出了一种针对RSIOD的布局可控扩散生成模型（即AeroGen）。据我们所知，AeroGen是第一个同时支持水平和旋转边界框条件生成的模型，从而能够生成满足特定布局和对象类别要求的高质量合成图像。此外，我们提出了一个端到端数据增强框架，该框架集成了一个多样性条件生成器和一个过滤机制，以提高生成数据的多样性和质量。实验结果表明，该方法产生的合成数据质量高、多样性好。此外，合成的RSIOD数据可以显著提高现有RSIOD模型的检测性能，即DIOR、DIOR- r和HRSC数据集上的mAP指标分别提高3.7%、4.3%和2.43%。