CV最新论文｜3月29日 arXiv更新论文合集

最新推荐文章于 2024-09-27 10:58:53 发布

马拉AI

最新推荐文章于 2024-09-27 10:58:53 发布

阅读量932

点赞数 5

文章标签：人工智能深度学习计算机视觉目标检测 3d python 算法

本文链接：https://blog.csdn.net/Mikasa33/article/details/137146567

版权

以下内容由马拉AI整理，今天为大家带来3月29日 arXiv 计算机视觉和模式识别相关论文：

1、GaussianCube: Structuring Gaussian Splatting using Optimal Transport for 3D Generative Modeling

GaussianCube:使用最优传输构建高斯飞溅3D生成建模

摘要：3D Gaussian Splatting （GS）在 3D 拟合保真度和渲染速度方面比 Neural Radiance Fields 取得了相当大的改进。然而，这种具有分散高斯的非结构化表示对生成建模提出了重大挑战。为了解决这个问题，我们引入了GaussianCube，这是一种结构化的GS表示，对于生成建模来说既强大又高效。为此，我们首先提出了一种改进的致密化约束GS拟合算法，该算法可以使用固定数量的自由高斯产生高质量的拟合结果，然后通过最优传输将高斯重新排列到预定义的体素网格中。结构化网格表示允许我们使用标准的 3D U-Net 作为扩散生成建模的支柱，而无需精心设计。在 ShapeNet 和 OmniObject3D 上进行的大量实验表明，我们的模型在定性和定量方面都取得了最先进的生成结果，强调了 GaussianCube 作为强大且多功能的 3D 表示的潜力。

2、RSMamba: Remote Sensing Image Classification with State Space Model

RSMamba：基于状态空间模型的遥感图像分类

摘要：遥感影像分类是各种理解任务的基础，在遥感影像解读中发挥着至关重要的作用。卷积神经网络（CNN）和 Transformer 的最新进展显着提高了分类精度。尽管如此，遥感场景分类仍然是一个重大挑战，特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的可变性。全图像理解能力可以为场景辨别提供更精确的语义线索。本文介绍了一种用于遥感图像分类的新型架构RSMamba。RSMamba 基于状态空间模型（SSM），并采用了一种称为 Mamba 的高效硬件感知设计。它集成了全局感受野和线性建模复杂性的优点。为了克服香草曼巴只能对因果序列进行建模，不适应二维图像数据的局限性，我们提出了一种动态多路径激活机制来增强曼巴对非因果数据进行建模的能力。值得注意的是，RSMamba保留了香草曼巴固有的建模机制，但在多个遥感图像分类数据集中表现出优异的性能。这表明RSMamba具有作为未来视觉基础模型骨干的巨大潜力。该代码将在 \url{this https URL} 中提供。

3、Detecting Image Attribution for Text-to-Image Diffusion Models in RGB and Beyond

检测 RGB 及其他文本到图像扩散模型的图像归属

摘要：现代文本到图像（T2I）扩散模型可以生成具有非凡真实感和创造力的图像。这些进步引发了对假图像检测和归因的研究，但之前的研究尚未充分探索这项任务的实践和科学层面。除了将图像归因于 12 个最先进的 T2I 生成器外，我们还对可识别的推理阶段超参数和图像修改进行了广泛的分析。我们的实验表明，初始化种子是高度可检测的，在某种程度上，图像生成过程中还有其他细微的变化。我们通过扰动高频细节并采用图像风格和结构的中级表示，进一步研究了在图像归属中使用了哪些视觉痕迹。值得注意的是，改变高频信息只会导致准确性略有下降，并且对风格表示的归因者进行训练的效果优于对RGB图像的训练。我们的分析强调，与之前探索的相比，假图像在不同的视觉粒度水平上是可检测和归因的。

4、InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction

InterDreamer：从零镜头文本到3D动态人物交互

摘要：文本条件人体运动生成已经取得了重大进步，扩散模型在广泛的动作捕捉数据和相应的文本注释上进行了训练。然而，将这种成功扩展到 3D 动态人物交互（HOI）生成面临着显着的挑战，这主要是由于缺乏与这些交互相一致的大规模交互数据和全面描述。本文采取主动行动，展示了在不直接训练文本交互对数据的情况下生成人与物体交互的潜力。我们实现这一目标的关键见解是，交互语义和动态是可以解耦的。由于无法通过监督训练来学习交互语义，我们转而利用预先训练的大型模型，将来自大型语言模型和文本到动作模型的知识协同起来。虽然这些知识提供了对交互语义的高级控制，但它无法掌握低级交互动态的复杂性。为了克服这个问题，我们进一步引入了一个旨在理解简单物理学的世界模型，模拟人类行为如何影响物体运动。通过集成这些组件，我们的新颖框架 InterDreamer 能够以零样本方式生成文本对齐的 3D HOI 序列。我们将InterDreamer应用于BEHAVE和CHAIRS数据集，我们全面的实验分析证明了它能够生成与文本指令无缝对齐的逼真且连贯的交互序列。

5、MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

MagicLens：具有开放式指令的自监督图像检索

摘要：图像检索，即在给定参考图像的情况下查找所需的图像，本质上包含丰富的、多方面的搜索意图，而仅使用基于图像的度量很难捕获这些意图。最近的工作利用文本说明，使用户能够更自由地表达他们的搜索意图。然而，现有的工作主要集中在视觉上相似和/或可以通过一小组预定义关系来表征的图像对。本文的核心论点是，文本指令可以检索具有视觉相似性之外的更丰富关系的图像。为了证明这一点，我们介绍了 MagicLens，这是一系列支持开放式指令的自监督图像检索模型。MagicLens 建立在一个关键的新见解之上：在同一网页上自然出现的图像对包含广泛的隐式关系（例如，内部视图），我们可以通过大型多模态模型（LMM）和大型语言模型（LLM）合成指令来显化这些隐式关系。MagicLens 在 36.7M（查询图像、指令、目标图像）三元组上进行训练，具有从网络上挖掘的丰富语义关系，在各种图像检索任务的八个基准测试上取得了与以前最先进的（SOTA）方法相当或更好的结果。值得注意的是，它的性能优于以前的 SOTA，但在多个基准测试中模型尺寸缩小了 50 倍。对1.4M图像看不见的语料库进行的其他人类分析进一步证明了MagicLens支持的搜索意图的多样性。

6、Change-Agent: Towards Interactive Comprehensive Change Interpretation and Analysis from Change Detection and Change Captioning

变革推动者：从变革检测和变革字幕走向交互式综合变革解释和分析

摘要：监测地球表面的变化对于了解自然过程和人类影响至关重要，因此需要精确和全面的解释方法。遥感卫星图像为监测这些变化提供了独特的视角，导致遥感图像变化解释（RSICI）成为一个重要的研究重点。当前的 RSICI 技术包括更改检测和更改字幕，每种技术在提供全面解释方面都有其局限性。为了解决这个问题，我们提出了一种交互式变革推动者，它集成了多层次变革解释（MCI）模型作为眼睛，将大型语言模型（LLM）作为大脑。我们的变更代理可以按照用户指令，根据用户指令实现全面的变更解释和洞察分析，如变更检测和变更字幕、变更对象计数、变更原因分析等。我们提出的MCI模型包含像素级变化检测和语义级变化字幕两个分支，其中多个双时空迭代交互（BI3）层利用局部感知增强（LPE）和全局差异融合注意力（GDFA）模块来增强模型的判别特征表示能力。为了训练 MCI 模型，我们构建了 LEVIR-MCI 数据集，其中包含双时相图像的变化掩码和标题。大量的实验证明了所提出的变化解释模型的有效性，并强调了我们的变化推动者在促进全面和智能解释表面变化方面的巨大潜力。我们将在此 https URL 上公开我们的变更解释模型和 Change-Agent 的数据集和代码库，以促进未来的研究

7、GANTASTIC: GAN-based Transfer of Interpretable Directions for Disentangled Image Editing in Text-to-Image Diffusion Models

GANTASTIC：基于GAN的文本到图像扩散模型中解纠缠图像编辑的可解释方向转移

摘要：图像生成模型的快速发展主要是由扩散模型推动的，扩散模型在从文本提示生成高保真、多样化的图像方面取得了无与伦比的成功。尽管扩散模型取得了成功，但在图像编辑领域遇到了巨大的挑战，特别是在执行针对图像特定属性的解缠编辑更改时，同时不触及不相关的部分。相比之下，生成对抗网络（GAN）因其通过可解释的潜在空间在解开纠缠编辑方面的成功而受到认可。我们引入了 GANTASTIC，这是一个新颖的框架，它从预训练的 GAN 模型（代表特定的、可控的属性）中获取现有方向，并将这些方向转移到基于扩散的模型中。这种新颖的方法不仅保持了扩散模型众所周知的生成质量和多样性，而且还显着增强了它们执行精确、有针对性的图像编辑的能力，从而利用了两全其美的优势。

8、Siamese Vision Transformers are Scalable Audio-visual Learners

Siamese Vision Transformers 是可扩展的视听学习器

摘要：传统的视听方式依赖于独立的视听骨干网，成本高昂且不可扩展。在这项工作中，我们研究了使用视听暹罗网络（AVSiam）进行高效且可扩展的视听预训练。我们的框架使用单个共享视觉转换器主干来处理音频和视频输入，从而提高其参数效率，减少 GPU 内存占用，并允许我们将方法扩展到更大的数据集和模型大小。我们使用对比视听匹配目标和多比率随机掩码方案对模型进行预训练，这使我们的模型能够处理更大的视听实例批次，有助于对比学习。与以前的视听方法不同，我们的方法可以使用单个共享的 ViT 主干网稳健地处理音频、视频和视听输入。此外，尽管这两种模式都使用共享主干，但 AVSiam 在视听分类和检索方面比以前在 AudioSet 和 VGGSound 上的方法取得了具有竞争力甚至更好的结果。我们的代码可在此 https URL 获得

9、GauStudio: A Modular Framework for 3D Gaussian Splatting and Beyond

GauStudio：用于 3D 高斯飞溅及其他技术的模块化框架

摘要:我们推出了GauStudio，这是一种用于建模3D高斯飞溅（3DGS）的新型模块化框架，为用户提供标准化的即插即用组件，以便轻松定制和实现3DGS管道。在我们的框架的支持下，我们提出了一种具有前景和天球背景模型的混合高斯表示。实验表明，这种表示减少了无界户外场景中的伪影，并改善了新颖的视图合成。最后，我们提出了高斯飞溅表面重建（GauS），这是一种新颖的渲染后融合方法，无需微调即可从3DGS输入进行高保真网格重建。总体而言，我们的 GauStudio 框架、混合表示和 GauS 方法增强了 3DGS 建模和渲染功能，从而实现了更高质量的新颖视图合成和曲面重建。

10、SA-GS: Scale-Adaptive Gaussian Splatting for Training-Free Anti-Aliasing

SA-GS：用于免训练抗锯齿的标度自适应高斯溅射

摘要：在本文中，我们提出了一种抗锯齿高斯飞溅（SA-GS）的尺度自适应方法。虽然最先进的 Mip-Splatting 方法需要修改高斯 Splatting 的训练程序，但我们的方法在测试时起作用并且无需训练。具体来说，SA-GS可以作为插件应用于任何预训练的高斯飞溅场，以显著提高场的抗滑落性能。核心技术是在测试期间将 2D 尺度自适应滤波器应用于每个高斯。正如Mip-Splatting所指出的，在训练和测试期间，以不同频率观察高斯标度会导致高斯尺度之间的不匹配。Mip-Splatting 使用 3D 平滑和 2D Mip 滤波器解决了此问题，不幸的是，它们不知道测试频率。在这项工作中，我们证明了一个被告知测试频率的二维尺度自适应滤波器可以有效地匹配高斯尺度，从而使高斯原始分布在不同的测试频率上保持一致。当消除比例不一致时，小于场景频率的采样率会导致传统的锯齿状，我们建议在测试期间将投影的 2D 高斯集成到每个像素中。这种集成实际上是超级采样的一个限制情况，它显着提高了抗锯齿性能，而不是普通的高斯溅射。通过使用各种设置以及有界和无界场景的广泛实验，我们发现 SA-GS 的性能与 Mip-Splatting 相当或更好。请注意，超级采样和积分只有在激活尺度自适应滤波时才有效。我们的代码、数据和模型可在此 https URL 上找到。

11、ILPO-NET: Network for the invariant recognition of arbitrary volumetric patterns in 3D

ILPO-NET：用于在3D中不变识别任意体积图案的网络

摘要：在现代空间数据分析中，有效识别空间模式并了解其层次结构至关重要。体积数据应用寻求的技术不仅要确保偏移，还要确保模式旋转的不变性。虽然传统方法可以很容易地实现平移不变性，但旋转不变性具有多重挑战，并且仍然是一个活跃的研究领域。在这里，我们提出了ILPO-Net（局部模式定向网络不变），这是一种新颖的方法，它使用Wigner矩阵展开处理任意形状的模式，其卷积运算固有地不变于局部空间模式方向。我们的架构无缝集成了新的卷积算子，当对 MedMNIST 和 CATH 等各种体积数据集进行基准测试时，在显著减少参数计数的情况下，表现出优于基线的性能——在 MedMNIST 的情况下，参数数量减少了 1000 倍。除了这些演示之外，ILPO-Net的旋转不变性还为跨多个学科的其他应用铺平了道路。我们的代码在此 https URL 上公开提供。

12、Nearest Neighbor Classication for Classical Image Upsampling

经典图像上采样的最近邻经典化

摘要：给定一组图像形式的有序像素数据，我们的目标是对数据进行上采样，以便：最终的分辨率提高了一些因素，最终结果通过了人工测试，为图像添加了新的、可信的和逼真的信息和细节，放大的时间复杂度相对接近有损放大实现的时间复杂度。

13、Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model

通过扩散模型的类间图像混搭增强图像分类

摘要：文本到图像（T2I）生成模型最近已成为一种强大的工具，可以创建逼真的图像并产生多种应用。然而，将T2I模型有效地集成到基本的图像分类任务中仍然是一个悬而未决的问题。提高图像分类性能的一种流行策略是使用 T2I 模型生成的合成图像来增强训练集。在这项研究中，我们仔细研究了当前生成和传统数据增强技术的缺点。我们的分析表明，这些方法很难产生既忠实（就前景对象而言）又多样化（就背景上下文而言）的图像。为了应对这一挑战，我们引入了一种创新的类间数据增强方法，称为 Diff-Mix（此 https URL），它通过在类之间执行图像转换来丰富数据集。我们的实证结果表明，Diff-Mix 在忠实度和多样性之间实现了更好的平衡，从而在各种图像分类场景中显着提高了性能，包括针对特定领域数据集的少样本、常规和长尾分类。

14、LocCa: Visual Pretraining with Location-aware Captioners

LocCa：使用位置感知字幕进行视觉预训练

摘要：图像标题已被证明是一种有效的预训练方法，类似于对比预训练。然而，将位置感知信息纳入视觉预训练仍然是一个研究有限的领域。在本文中，我们提出了一种使用位置感知字幕（LocCa）的简单视觉预训练方法。LocCa 使用一个简单的图像标题器任务接口来教模型读取丰富的信息，即边界框坐标和标题，以图像像素输入为条件。由于编码器-解码器架构的多任务功能，我们展示了图像字幕器可以在预训练期间轻松处理多个任务。我们的实验表明，LocCa在本地化下游任务中明显优于标准字幕，同时在整体任务上保持了相当的性能。

15、Situation Awareness for Driver-Centric Driving Style Adaptation

以驾驶员为中心的驾驶风格适应的态势感知

摘要：有证据表明，自动驾驶汽车的驾驶风格对于提高乘客的接受度和信任度非常重要。已发现驾驶情况对人类驾驶行为有重大影响。然而，当前的驾驶风格模型仅部分包含驾驶环境信息，限制了智能体与给定情况之间的一致性。因此，我们提出了一种基于车队数据预训练的不同视觉特征编码器的态势感知驾驶风格模型，以及适应特定驾驶员驾驶风格的驾驶行为预测器。实验表明，所提方法明显优于静态驾驶风格，并形成了合理的情境聚类。此外，我们发现在我们的数据集上预训练的特征编码器可以进行更精确的驾驶行为建模。相比之下，特征编码器在不同的数据源上经过预训练的监督和无监督会导致更具体的情况集群，可用于约束和控制特定情况下的驾驶风格适应。此外，在现实世界中，驾驶风格适应是迭代发生的，我们发现基于MLP的行为预测器最初取得了良好的性能，但遭受了灾难性的遗忘。相比之下，基于情境相关统计的行为预测器可以通过设计从连续数据流中迭代学习。总体而言，我们的实验表明，驾驶行为预测的重要信息包含在视觉特征编码器中。数据集在此 http URL 上公开提供。

16、Frame by Familiar Frame: Understanding Replication in Video Diffusion Models

逐帧熟悉的帧：了解视频扩散模型中的复制

摘要：在图像生成扩散模型的发展势头的基础上，人们对基于视频的扩散模型越来越感兴趣。然而，视频生成由于其高维性、训练数据的稀缺性以及涉及的复杂时空关系，带来了更大的挑战。由于图像生成模型对数据的广泛要求，计算资源已经达到极限。这些模型已经复制了训练样本中的元素，导致了对样本复制的担忧甚至法律纠纷。视频扩散模型使用更受限制的数据集运行，并负责生成空间和时间内容，可能更倾向于从其训练集中复制样本。使问题更加复杂的是，这些模型通常使用无意中奖励复制的指标进行评估。在本文中，我们对视频扩散模型中的样本复制现象进行了系统研究。我们仔细研究了各种最近的视频合成扩散模型，评估了它们在无条件和有条件生成场景中复制空间和时间内容的趋势。我们的研究确定了不太可能导致复制的策略。此外，我们提出了考虑复制的新评估策略，为模型生成原始内容的能力提供了更准确的衡量标准。

17、TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

TOD3Cap：在户外场景中实现3D密集字幕

摘要：3D 密集字幕是通过自然语言全面理解 3D 场景的基石。它最近取得了令人瞩目的成就，特别是在室内环境中。然而，室外场景中3D密集字幕的探索受到两大挑战的阻碍：1）室内和室外场景之间的\textbf{domain gap}，如动态和稀疏的视觉输入，使得很难直接适配现有的室内方法;2） \textbf{lack of data}，具有专为户外场景量身定制的综合框字幕对注释。为此，我们引入了户外 3D 密集字幕的新任务。作为输入，我们假设一个 LiDAR 点云和一组由全景相机装备捕获的 RGB 图像。预期输出是一组带有标题的对象框。为了解决这一任务，我们提出了TOD3Cap网络，该网络利用BEV表示来生成对象框建议，并将Relation Q-Former与LLaMA-Adapter集成在一起，为这些对象生成丰富的标题。我们还介绍了 TOD3Cap 数据集，这是我们所知道的户外场景中最大的 3D 密集字幕数据集，其中包含来自 850 个场景的 64.3K 户外物体的 2.3M 描述。值得注意的是，我们的 TOD3Cap 网络可以有效地定位和描述户外场景中的 3D 对象，这大大优于基线方法（+9.6 CiDEr@0.5IoU）。代码、数据和模型在此 https URL 上公开提供。

18、DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs

重装上阵的 DenseNets：超越 ResNets 和 ViT 的范式转变

摘要：本文复兴了密集连接卷积网络（DenseNets），并揭示了与主流ResNet风格架构相比被低估的有效性。我们认为，由于未触及的训练方法和传统的设计元素没有充分揭示其能力，DenseNets的潜力被忽视了。我们的试点研究表明，通过串联实现的密集连接很强，这表明 DenseNets 可以重新焕发活力以与现代架构竞争。我们有条不紊地改进次优组件 - 架构调整、块重新设计和改进训练配方，以扩大 DenseNets 并提高内存效率，同时保持串联快捷方式。我们的模型采用简单的架构元素，最终超越了 Swin Transformer、ConvNeXt 和 DeiT-III，这些都是残差学习谱系中的关键架构。此外，我们的模型在ImageNet-1K上表现出近乎最先进的性能，与最新的模型和下游任务、ADE20k语义分割和COCO对象检测/实例分割竞争。最后，我们提供了实证分析，揭示了串联相对于加法快捷方式的优点，引导了对 DenseNet 风格设计的新偏好。我们的代码可在此 https URL 上找到。

19、TOGS: Gaussian Splatting with Temporal Opacity Offset for Real-Time 4D DSA Rendering

TOGS：用于实时 4D DSA 渲染的具有时间不透明度偏移的高斯飞溅

摘要：四维数字减影血管造影术（4D DSA）是一种医学成像技术，可在造影剂填充血管的过程中提供一系列在不同阶段和角度拍摄的2D图像。它在脑血管疾病的诊断中起着重要作用。在稀疏采样下提高渲染质量和速度对于观察病灶的状态和位置非常重要。当前方法在稀疏视图中呈现质量不足，渲染速度慢。为了克服这些局限性，我们提出了TOGS，这是一种随时间不透明度偏移的高斯飞溅方法，可以有效提高4D DSA的渲染质量和速度。我们为每个高斯引入了一个不透明度偏移表，以模拟造影剂辐射的时间变化。通过插值不透明度偏移表，可以确定高斯在不同时间点的不透明度变化。这使我们能够在特定时刻渲染 2D DSA 图像。此外，我们在损失函数中引入了平滑损失项，以缓解模型在处理稀疏视图场景时可能出现的过拟合问题。在训练阶段，我们随机修剪高斯，从而减少模型的存储开销。实验结果表明，与以往方法相比，该模型在相同数量的训练视图下实现了最先进的重建质量。此外，它还支持实时渲染，同时保持较低的存储开销。该代码将公开发布。

20、Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation

Img2Loc：使用多模态基础模型和基于图像的检索增强生成重新审视图像地理定位

摘要：从图像中对精确位置进行地理定位是计算机视觉和信息检索中一个具有挑战性的问题。传统方法通常采用分类，将地球表面划分为网格单元并相应地对图像进行分类，或者采用检索，通过将图像与图像-位置对数据库进行匹配来识别位置。然而，基于分类的方法受到单元大小的限制，无法产生精确的预测，而基于检索的系统通常存在搜索质量差的问题，并且在不同规模和聚合水平上对全球景观的覆盖不足。为了克服这些缺点，我们提出了 Img2Loc，这是一种将图像地理定位重新定义为文本生成任务的新系统。这是使用尖端的大型多模态模型（如 GPT4V 或 LLaVA）实现的，具有检索增强生成功能。Img2Loc 首先使用基于 CLIP 的表示来生成基于图像的坐标查询数据库。然后，它以独特的方式将查询结果与图像本身相结合，形成为 LMM 定制的精心设计的提示。在 Im2GPS3k 和 YFCC4k 等基准数据集上进行测试时，Img2Loc 不仅超越了以前最先进的模型的性能，而且在没有任何模型训练的情况下做到了这一点。