CV最新论文｜3月25日 arXiv更新论文合集

最新推荐文章于 2024-09-06 09:14:39 发布

马拉AI

最新推荐文章于 2024-09-06 09:14:39 发布

阅读量1.1k

点赞数 6

分类专栏：计算机 SCI AI 文章标签：计算机视觉人工智能深度学习机器学习 ai

本文链接：https://blog.csdn.net/Mikasa33/article/details/137012706

版权

计算机同时被 3 个专栏收录

1 篇文章 1 订阅

订阅专栏

SCI

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

以下内容由马拉AI整理，今天为大家带来3月25日 arXiv 计算机视觉和模式识别相关论文：

1、

DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

DiffusionMTL：从部分注释数据中学习多任务去噪扩散模型

摘要：最近，人们对从部分注释数据中学习多个密集场景理解任务的实际问题越来越感兴趣，其中每个训练样本仅针对任务的子集进行标记。训练中缺少任务标签会导致低质量和嘈杂的预测，这可以从最先进的方法中观察到。为了解决这个问题，我们将部分标记的多任务密集预测重新表述为像素级去噪问题，并提出了一种新颖的多任务去噪扩散框架，称为DiffusionMTL。它设计了一种联合扩散和去噪范式，以模拟任务预测或特征图中的潜在噪声分布，并为不同的任务生成校正输出。为了利用多任务在去噪中的一致性，我们进一步引入了多任务条件反射策略，该策略可以隐式地利用任务的互补性来帮助学习未标记的任务，从而改善不同任务的去噪性能。大量的定量和定性实验表明，在两种不同的部分标记评估设置下，所提出的多任务去噪扩散模型可以显著改善多任务预测图谱，并在三个具有挑战性的多任务基准上优于最先进的方法。该代码可在此 https URL 中找到。

2、

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

LLaVA-PruMerge：用于高效大型多模态模型的自适应令牌缩减

摘要：大型多模态模型（LMM）通过连接可视化编码器和大型语言模型，显示出显著的推理能力。LMM 通常使用固定数量的视觉标记（例如 CLIP 视觉编码器中的倒数第二层要素）作为前缀内容。最近的 LMM 包含更复杂的视觉输入，例如高分辨率图像和视频，这显着增加了视觉令牌的数量。但是，由于 Transformer 架构的设计，与这些模型相关的计算成本往往会随着输入令牌数量的增加而呈二次方增加。为了解决这个问题，我们探索了一种令牌减少机制，并发现，与之前的工作类似，许多视觉令牌在空间上是多余的。基于此，我们提出了PruMerge，这是一种新颖的自适应视觉令牌减少方法，它在很大程度上减少了视觉令牌的数量，同时保持了相当的模型性能。我们首先根据未修剪的视觉标记与类标记和空间标记的相似性来选择它们。然后，我们根据键相似性对修剪后的令牌进行聚类，并将聚类令牌与未修剪的令牌合并以补充其信息。根据经验，当应用于 LLaVA-1.5 时，我们的方法可以平均压缩 14.4 倍的视觉标记，并在各种视觉问答和推理任务中实现可比的性能。代码和检查点位于此 https URL 中。

3、

LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis

LATTE3D：大规模摊销文本到增强的 3D 合成

摘要：最近的文本到 3D 生成方法可产生令人印象深刻的 3D 结果，但需要耗时的优化，每个提示可能需要长达一个小时。ATT3D 等摊销方法可同时优化多个提示以提高效率，从而实现快速文本到 3D 的合成。但是，它们无法捕获高频几何体和纹理细节，并且难以扩展到大型提示集，因此它们的泛化能力很差。我们引入了LATTE3D，解决了这些限制，以在更大的提示集上实现快速、高质量的生成。我们方法的关键是 1）构建可扩展的架构，以及 2）在优化过程中通过 3D 感知扩散先验、形状正则化和模型初始化利用 3D 数据，以实现对各种复杂训练提示的鲁棒性。LATTE3D 摊销神经场和纹理表面生成，以在单次前向传递中生成高度详细的纹理网格。 LATTE3D 在 400 毫秒内生成 3D 对象，并且可以通过快速测试时间优化进一步增强。

4、

ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars

ThemeStation：从少数示例生成主题感知 3D 资产

摘要：实际应用程序通常需要具有一致主题的大型 3D 资产库。虽然在从文本或图像创建一般 3D 内容方面取得了显着进展，但按照输入 3D 示例的共同主题合成定制的 3D 资产仍然是一个开放且具有挑战性的问题。在这项工作中，我们提出了 ThemeStation，这是一种用于主题感知 3D 到 3D 生成的新方法。ThemeStation 根据给定的几个示例合成自定义的 3D 资产，其目标有两个：1）生成主题上与给定示例一致的 3D 资产的统一性，以及 2）生成具有高度变化的 3D 资产的多样性。为此，我们设计了一个两阶段框架，首先绘制概念图像，然后是参考信息的 3D 建模阶段。我们提出了一种新的双分数蒸馏（DSD）损失，以联合利用来自输入示例和合成概念图像的先验。大量的实验和用户研究证实，ThemeStation 在制作具有令人印象深刻的质量的各种主题感知 3D 模型方面超越了之前的作品。ThemeStation 还支持各种应用，例如可控的 3D 到 3D 生成。

5、

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

DragAPart：学习铰接对象的零件级运动先验

摘要：我们引入了 DragAPart，这种方法在给定一个图像和一组拖动作为输入的情况下，可以在新状态下生成同一对象的新图像，与拖动的动作兼容。与之前专注于重新定位对象的工作不同，DragAPart 预测了零件级交互，例如打开和关闭抽屉。我们研究这个问题作为学习通用运动模型的代理，而不限于特定的运动学结构或对象类别。为此，我们从预先训练的图像生成器开始，并在我们引入的新合成数据集 Drag-a-Move 上对其进行微调。结合拖动和数据集随机化的新编码，新模型可以很好地推广到真实图像和不同类别。与以前的运动控制发生器相比，我们展示了更好的零件级运动理解。

6、

Long-CLIP: Unlocking the Long-Text Capability of CLIP

Long-CLIP：解锁 CLIP 的长文本功能

摘要：对比语言-图像预训练（CLIP）一直是零样本分类、文本-图像检索和文本-图像生成的基石，通过对齐图像和文本模态。尽管 CLIP 被广泛采用，但其重大局限性在于文本输入的长度不足。文本标记的长度限制为 77，实证研究表明，实际有效长度甚至小于 20。这会阻止 CLIP 处理详细描述，从而限制其图像检索和文本到图像生成的应用程序，并具有广泛的先决条件。为此，我们建议将 Long-CLIP 作为 CLIP 的即插即用替代方案，它支持长文本输入，保留甚至超越其零样本泛化性，并对齐 CLIP 潜在空间，使其易于取代 CLIP，而无需在下游框架中进行任何进一步的调整。然而，实现这一目标远非易事，因为简单的微调会导致 CLIP 的性能显着下降。此外，用支持较长上下文的语言模型替换文本编码器需要使用大量数据进行预训练，从而产生大量费用。因此，Long-CLIP在CLIP上引入了一种高效的微调解决方案，该解决方案具有两种新颖的策略，旨在保持原始功能，包括（1）位置嵌入的知识保留延伸和（2）CLIP特征的主要组件匹配。Long-CLIP仅利用100万个超长文本-图像对，在长标题文本-图像检索方面显示出优于CLIP的优势，在传统的文本-图像检索任务中，如COCO和Flickr30k，分别为6%。此外，Long-CLIP 通过以即插即用的方式取代 CLIP，提供了从详细文本描述生成图像的增强功能。

7、

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

InternVideo2：扩展视频基础模型以实现多模态视频理解

摘要：我们介绍了 InternVideo2，这是一种新的视频基础模型（ViFM），可在动作识别、视频文本任务和以视频为中心的对话方面实现最先进的性能。我们的方法采用渐进式训练范式，统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段将指导我们的模型通过不同的借口任务捕获不同级别的结构和语义信息。在数据层面，我们通过对视频进行语义分割和生成视频-音频-语音字幕来优先考虑时空一致性。这改进了视频和文本之间的对齐方式。我们扩展了 InternVideo2 的数据和模型大小。通过广泛的实验，我们验证了我们的设计，并在 60 多个视频和音频任务中展示了最先进的性能。值得注意的是，我们的模型在各种与视频相关的字幕、对话和长视频理解基准上优于其他模型，突出了其推理和理解长时态上下文的能力。代码和模型可在此 https URL 中找到。

8、

Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks

基于增强现实的模拟数据 （ARSim），具有 AV 感知网络的多视图一致性

摘要：在各种驾驶场景下检测各种物体对于自动驾驶系统的有效性至关重要。然而，收集的真实世界数据往往缺乏必要的多样性，呈现出长尾分布。尽管已经利用合成数据通过生成虚拟场景来克服这个问题，但它面临着一些障碍，例如巨大的领域差距以及 3D 艺术家创建逼真环境所需的大量努力。为了克服这些挑战，我们推出了ARSim，这是一个全自动、全面的模块化框架，旨在通过感兴趣的3D合成对象增强真实的多视图图像数据。所提出的方法集成了域适应和随机化策略，通过从真实数据推断基本域属性并对其他属性采用基于模拟的随机化来解决真实数据和模拟数据之间的协变量偏移。我们使用真实数据构建一个简化的虚拟场景，并战略性地将 3D 合成资产放置在其中。照明是通过从捕获车辆周围环境的多个图像中估计光分布来实现的。使用来自真实数据的摄像机参数来渲染每一帧中的合成资产。由此产生的增强多视图一致性数据集用于训练自动驾驶汽车的多摄像头感知网络。各种AV感知任务的实验结果表明，在增强数据集上训练的网络具有优越的性能。

9、

Learning Topological Representations for Deep Image Understanding

学习拓扑表示以深入理解图像

摘要:在许多情况下，尤其是生物医学应用中，正确描绘复杂的精细结构（如神经元、组织和血管）对于下游分析至关重要。尽管深度学习方法具有很强的预测能力，但它们并不能令人满意地表示这些结构，从而在可扩展的注释和下游分析中造成重大障碍。在这篇论文中，我们通过在深度学习框架中提出这些拓扑结构的新表示来应对这些挑战。我们利用拓扑数据分析的数学工具，即持久同调和离散莫尔斯理论，开发有原则的方法，以更好地分割和不确定性估计，这将成为可扩展注释的强大工具。

10、

SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series

SiMBA：基于 Manna 的简化视觉和多变量时间序列架构

摘要：Transformer 广泛采用注意力网络进行序列混合，MLP 进行通道混合，在实现跨领域突破方面发挥着关键作用。然而，最近的文献强调了注意力网络的问题，包括低归纳偏差和关于输入序列长度的二次复杂度。像 S4 和其他模型（Hippo、Global Convolutions、liquid S4、LRU、Mega 和 Mamba）这样的状态空间模型（SSM）已经出现，以解决上述问题，以帮助处理更长的序列长度。Mamba虽然是最先进的SSM，但在扩展到计算机视觉数据集的大型网络时存在稳定性问题。我们提出了SiMBA，这是一种新的架构，它引入了Einstein FFT（EinFFT）通过特定的特征值计算进行通道建模，并使用Mamba模块进行序列建模。跨图像和时间序列基准测试的广泛性能研究表明，SiMBA 的性能优于现有的 SSM，与最先进的变压器缩小了性能差距。值得一提的是，SiMBA在ImageNet和迁移学习基准（如Stanford Car和Flower）以及任务学习基准以及七个时间序列基准数据集上确立了自己作为最先进的SSM。项目页面可在本网站上找到 ~\url{this https URL}。

11、

Neural Plasticity-Inspired Foundation Model for Observing the Earth Crossing Modalities

用于观察地球穿越模式的神经可塑性启发基础模型

摘要：基础模型的发展彻底改变了我们使用卫星观测数据解释地球表面的能力。传统模型是孤立的，针对特定的传感器或数据类型（如光学、雷达和高光谱）量身定制，每种模型都有其独特的特性。这种专业化阻碍了整体分析的潜力，而整体分析可以从这些不同数据源的综合优势中受益。我们的新方法引入了动态一劳永逸（DOFA）模型，利用脑科学中的神经可塑性概念，自适应地将各种数据模式集成到一个框架中。这种动态超网络可以适应不同的波长，使一个多功能的变压器能够根据来自五个传感器的数据进行联合训练，从而在12个不同的地球观测任务中表现出色，包括在预训练期间从未见过的传感器。DOFA的创新设计为更准确、高效和统一的地球观测分析提供了有希望的飞跃，在利用多模态地球观测数据的潜力方面展示了非凡的适应性和性能。

12、

Fully automated workflow for the design of patient-specific orthopaedic implants: application to total knee arthroplasty

用于设计患者特定骨科植入物的全自动工作流程：应用于全膝关节置换术

摘要：

关节置换术通常用于治疗关节骨关节炎，减轻疼痛并改善活动能力。虽然关节置换术已经取得了一些技术改进，但很大一部分患者仍然对他们的手术不满意。个性化关节置换术改善了手术结果，但目前的解决方案需要延迟，因此难以融入临床常规。我们提出了一个全自动的工作流程来设计患者特定的植入物，用于全膝关节置换术，这是当今世界上应用最广泛的关节置换术。

拟议的管道首先使用人工神经网络来分割股骨和胫骨的近端和远端。然后使用增强的统计形状模型，结合形状和地标信息，重建完整的骨骼。最后，计算了 77 个形态参数来设计患者特定的植入物。开发的工作流程已使用 91 次下肢 CT 扫描进行训练，并在 41 次手动分段的 CT 扫描上进行了准确性和执行时间的评估。

分割的工作流程精度为，全骨重建为，解剖标志确定为。定制植入物以的精度适合患者的解剖结构。从分割到植入物设计的整个过程持续了大约5分钟。

拟议的工作流程允许直接从患者 CT 图像中快速可靠地个性化膝关节植入物，而无需任何手动干预。它可以在很短的时间内为TKA建立针对患者的术前计划，使其易于所有患者使用。结合高效的植入物制造技术，该解决方案可以帮助解决越来越多的关节置换术问题，同时减少并发症并提高患者满意度。

13、

Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization

有选择的信息描述可以减少文本到图像个性化中不需要的嵌入纠缠

摘要：在文本到图像的个性化中，一个及时而关键的挑战是生成的图像与参考图像中存在的偏差过度拟合的趋势。我们首先将偏见全面分类为背景、附近客体、捆绑客体、物质（风格重新语境化）和姿势偏见。这些偏差由于与主体嵌入的纠缠而体现在生成的图像中。这种不需要的嵌入纠缠不仅导致参考图像的偏差反射到生成的图像中，而且还显着降低了生成图像与给定生成提示的对齐。为了应对这一挑战，我们提出了SID~（Selectively Informative Description），这是一种文本描述策略，它偏离了仅表征主体阶级认同的流行方法。SID 是利用多模态 GPT-4 生成的，可以无缝集成到基于优化的模型中。我们提出了全面的实验结果，以及对交叉注意力图、主体对齐、非主体解缠和文本对齐的分析。

14、

Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection

Point-DETR3D：利用具有空间点先验的影像数据进行弱半监督 3D 对象检测

摘要：训练高精度 3D 探测器需要大量具有 7 个自由度的标记 3D 注释，这既费力又耗时。因此，提出了点标注的形式，为三维检测的实际应用提供了广阔的前景，它不仅更容易获得，成本更低，而且为对象提供了强大的空间信息。 1）它无法将强3D先验编码到模型中，2）由于LiDAR点的极度稀疏，它在遥远的区域生成低质量的伪标签。为了克服这些挑战，我们引入了 Point-DETR3D，这是一个用于弱半监督 3D 检测的师生框架，旨在在有限的实例注释预算内充分利用逐点监督。与仅通过点编码器对3D位置信息进行编码的Point-DETR不同，我们提出了一种显式的位置查询初始化策略来增强位置先验。考虑到教师模型产生的远距离区域伪标签质量低下的问题，我们通过一种新型的跨模态可变形 RoI 融合（D-RoI）结合密集图像数据来增强检测器的感知。此外，提出了一种创新的点引导自监督学习技术，即使在学生模型中也能充分利用点先验。在具有代表性的nuScenes数据集上的大量实验表明，与以前的工作相比，我们的Point-DETR3D获得了显着的改进。值得注意的是，Point-DETR3D 仅使用 5% 的标记数据，其性能就超过了其完全监督对应物的 90%。

15、

CR3DT: Camera-RADAR Fusion for 3D Detection and Tracking

CR3DT：用于 3D 检测和跟踪的相机-雷达融合

摘要：对周围物体的准确检测和跟踪对于实现自动驾驶汽车至关重要。虽然光探测和测距（LiDAR）传感器为高性能设定了基准，但纯摄像头解决方案的吸引力在于其成本效益。值得注意的是，尽管无线电探测和测距（RADAR）传感器在汽车系统中普遍使用，但由于数据稀疏性和测量噪声，它们在3D检测和跟踪方面的潜力在很大程度上被忽视了。作为最近的发展，雷达和相机的结合正在成为一种有前途的解决方案。本文介绍了用于3D目标检测的相机-雷达融合模型（CR3DT）和多目标跟踪（MOT）。CR3DT建立在最先进的（SotA）相机专用BEVDet架构的基础上，通过整合RADAR传感器的空间和速度信息，在检测和跟踪能力方面取得了重大改进。实验结果表明，当利用这两种模式时，nuScenes数据集的平均平均精度（mAP）和平均多目标跟踪精度（AMOTA）的检测性能绝对提高了5.3%，平均多目标跟踪精度（AMOTA）提高了14.9%。CR3DT通过利用雷达在汽车应用中无处不在的优势，弥合了自动驾驶中高性能和高性价比感知系统之间的差距。

16、

Controlled Training Data Generation with Diffusion Models

使用扩散模型生成受控训练数据

摘要：在这项工作中，我们提出了一种控制文本到图像生成模型的方法，以产生对监督学习特别“有用”的训练数据。与之前采用开环方法并预定义提示以使用语言模型或人类专业知识生成新数据的工作不同，我们开发了一个涉及两种反馈机制的自动化闭环系统。第一种机制使用来自给定监督模型的反馈，并找到对抗性提示，从而生成图像，使模型损失最大化。虽然这些对抗性提示导致模型提供不同的数据，但它们不会被告知目标分布，这可能效率低下。因此，我们引入了第二种反馈机制，该机制将生成过程引导到一定的目标分布。我们将结合这两种机制的方法称为引导对抗提示。我们对不同的任务、数据集和架构进行评估，使用不同类型的分布转移（虚假相关数据、看不见的领域），并展示了与开环方法相比，所提出的反馈机制的效率。

17、

WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization

WSCLoc：弱监督稀疏视角相机重新定位

摘要：尽管用于相机重新定位任务的深度学习取得了进步，但获取训练过程所需的地面实况姿态标签仍然是一项代价高昂的工作。虽然当前的弱监督方法在轻量级标签生成方面表现出色，但在视图稀疏的场景中，它们的性能明显下降。为了应对这一挑战，我们引入了WSCLoc，这是一个能够针对各种基于深度学习的重新定位模型进行定制的系统，以提高它们在弱监督和稀疏视图条件下的性能。这是通过两个阶段实现的。在初始阶段，WSCLoc 采用称为 WFT-NeRF 的基于多层感知器的结构来协同优化图像重建质量和初始姿态信息。为了确保稳定的学习过程，我们将时间信息作为输入。此外，我们没有优化 SE（3），而是选择了小号（3）优化以显式强制实施缩放约束。在第二阶段，我们共同优化了预训练的 WFT-NeRF 和 WFT-Pose。这种优化通过基于时间编码的随机视图合成得到增强，并由考虑姿态、深度和 RGB 信息的帧间几何约束进行监督。我们在两个公开可用的数据集上验证了我们的方法，一个是室外的，一个是室内的。我们的实验结果表明，我们的弱监督重定位解决方案在稀疏视图场景中实现了优异的姿态估计精度，可与最先进的相机重定位方法相媲美。我们将公开我们的代码。

18、

Hyperbolic Metric Learning for Visual Outlier Detection

用于视觉异常值检测的双曲度量学习

摘要：分布外（OOD）检测对于在安全关键型应用中部署深度学习模型至关重要。然而，基于欧几里得几何的传统方法往往很难捕捉到视觉数据的固有分层概念结构，这对 OOD 检测很有帮助。这项工作提出了一个度量框架，该框架利用双曲几何的优势进行OOD检测。受以前使用合成异常值细化 OOD 数据决策边界的工作的启发，我们将这种方法扩展到双曲空间。有趣的是，我们发现合成异常值在双曲空间中并不像在欧几里得空间中那样有利于 OOD 检测。此外，我们还探讨了OOD检测性能与双曲嵌入维数之间的关系，解决了资源受限环境中的实际问题。大量实验表明，与欧几里得方法相比，我们的框架将 CIFAR-10 和 CIFAR-100 的 FPR95 用于 OOD 检测的 FPR95 分别从 22% 提高到 15% 和 49% 提高到 28%。

19、

Spectral Motion Alignment for Video Motion Transfer using Diffusion Models

使用扩散模型进行视频运动传输的光谱运动对齐

摘要：扩散模型的发展极大地影响了视频的生成和理解。特别是，文本到视频扩散模型（VDM）极大地促进了输入视频的定制，包括目标外观、运动等。尽管取得了这些进展，但从视频帧中准确提取运动信息仍面临挑战。虽然现有作品利用连续的帧残差作为目标运动矢量，但它们本质上缺乏全局运动背景，并且容易受到逐帧失真的影响。为了解决这个问题，我们提出了光谱运动对齐（SMA），这是一种新颖的框架，它使用傅里叶和小波变换来细化和对齐运动矢量。SMA 通过整合频域正则化、促进全帧全局运动动力学的学习和减少空间伪影来学习运动模式。大量的实验证明了SMA在改善运动传输方面的功效，同时保持了计算效率和跨各种视频定制框架的兼容性。

20、

Self-Supervised Backbone Framework for Diverse Agricultural Vision Tasks

用于各种农业视觉任务的自监督骨干框架

摘要：农业中的计算机视觉能够将农业转变为数据驱动、精确和可持续的行业，从而改变游戏规则。深度学习使农业视觉能够分析大量复杂的视觉数据，但严重依赖大型注释数据集的可用性。这仍然是一个瓶颈，因为手动标记容易出错、耗时且成本高昂。缺乏有效的标记方法促使我们将自我监督学习视为一种范式转变，从原始农业图像数据中学习有意义的特征表示。在这项工作中，我们探讨了自监督表示学习如何通过消除对大规模注释数据集的需求来释放对各种农业视觉任务的潜在适用性。我们提出了一个轻量级框架，利用SimCLR（一种对比学习方法）在真实世界农业田间图像的大型、未注释数据集上预训练ResNet-50骨干。我们的实验分析和结果表明，该模型学习了适用于论文中讨论的广泛下游农业任务的鲁棒特征。此外，减少对注释数据的依赖使我们的方法更具成本效益和可访问性，为在农业中更广泛地采用计算机视觉铺平了道路。