CV最新论文｜4月5日 arXiv更新论文合集

最新推荐文章于 2024-09-07 18:59:08 发布

马拉AI

最新推荐文章于 2024-09-07 18:59:08 发布

阅读量835

点赞数 8

文章标签：机器学习深度学习 ai 计算机视觉人工智能

本文链接：https://blog.csdn.net/Mikasa33/article/details/137461870

版权

以下内容由马拉AI整理，今天为大家带来4月5日 arXiv 计算机视觉和模式识别相关论文：

1、Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

了解你的邻居：通过空间视觉-语言推理改进单视图重建

摘要：从单个视图恢复 3D 场景几何体是计算机视觉中一个基本但不恰当的问题。虽然经典的深度估计方法只能推断出局限于图像平面的 2.5D 场景表示，但最近基于辐射场的方法重建了完整的 3D 表示。然而，这些方法仍然难以处理遮挡区域，因为在没有目视观察的情况下推断几何形状需要（i）对周围环境的语义知识，以及（ii）对空间上下文的推理。我们提出了KYN，这是一种用于单视图场景重建的新方法，该方法可以推理语义和空间上下文以预测每个点的密度。我们引入了视觉语言调制模块，用细粒度的语义信息丰富点特征。我们通过语言引导的空间注意力机制聚合整个场景中的点表示，以产生感知 3D 语义上下文的每点密度预测。我们发现，与单独预测每个 3D 点的密度相比，KYN 提高了 3D 形状恢复。我们在KITTI-360上实现了场景和物体重建的最新结果，并且与以前的工作相比，显示出改进的零样本泛化。项目页面：此 https URL。

2、OW-VISCap: Open-World Video Instance Segmentation and Captioning

OW-VISCap：开放世界视频实例分割和字幕

摘要：开放世界视频实例分割是一项重要的视频理解任务。然而，大多数方法要么在封闭世界环境中运行，要么需要额外的用户输入，要么使用经典的基于区域的建议来识别以前从未见过的对象。此外，这些方法仅为检测到的对象分配一个单词标签，并且不会生成丰富的以对象为中心的描述。他们也经常受到高度重叠的预测的影响。为了解决这些问题，我们提出了开放世界视频实例分割和字幕（OW-VISCap），这是一种对视频中以前看到或看不见的对象进行联合分割、跟踪和字幕的方法。为此，我们引入了开放世界对象查询，以发现以前从未见过的对象，而无需额外的用户输入。我们通过屏蔽注意力增强的 LLM 输入为每个检测到的对象生成丰富且描述性的以对象为中心的标题。我们引入了查询间对比损失，以确保对象查询彼此不同。我们的通用方法在三项任务上达到或超越了最先进的技术：BURST 数据集上的开放世界视频实例分割、VidSTG 数据集上的密集视频对象字幕以及 OVIS 数据集上的封闭世界视频实例分割。

3、MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

MVD-Fusion：通过深度一致的多视图生成实现单视图 3D

摘要：我们介绍了MVD-Fusion：一种通过对多视图一致的RGB-D图像进行生成建模进行单视图3D推理的方法。虽然最近追求 3D 推理的方法提倡学习新颖视图生成模型，但这些世代不是 3D 一致的，需要蒸馏过程才能生成 3D 输出。取而代之的是，我们将 3D 推理的任务视为直接生成相互一致的多个视图，并建立在另外推断深度可以提供一种强制执行这种一致性的机制的见解之上。具体来说，我们训练一个去噪扩散模型，以在给定单个RGB输入图像的情况下生成多视图RGB-D图像，并利用（中等噪声）深度估计来获得基于重投影的条件反射，以保持多视图的一致性。我们使用大规模合成数据集 Obajverse 以及由通用相机视点组成的真实世界 CO3D 数据集来训练我们的模型。我们证明，与最近最先进的方法相比，我们的方法可以产生更准确的合成，包括基于蒸馏的 3D 推理和先前的多视图生成方法。我们还评估了多视图深度预测引起的几何形状，发现它比其他直接 3D 推理方法产生了更准确的表示。

4、RaFE: Generative Radiance Fields Restoration

RaFE：生成辐射场恢复

摘要：NeRF（神经辐射场）在新型视图合成和 3D 重建方面表现出巨大的潜力，但其性能对输入图像质量敏感，当提供低质量稀疏输入视点时，输入图像质量难以实现高保真渲染。以前的 NeRF 恢复方法是针对特定的降解类型量身定制的，而忽略了恢复的普遍性。为了克服这一限制，我们提出了一种名为 RaFE 的通用辐射场恢复管道，它适用于各种类型的退化，例如低分辨率、模糊、噪声、压缩伪影或其组合。我们的方法利用现成的 2D 修复方法的成功来单独恢复多视图图像。我们没有通过平均不一致来重建模糊的 NeRF，而是引入了一种使用生成对抗网络（GAN）生成 NeRF 的新方法，以更好地适应多视图图像中存在的几何和外观不一致。具体来说，我们采用两级三平面架构，其中粗水平保持固定以表示低质量的 NeRF，并将添加到粗水平上的精细残差三平面建模为带有 GAN 的分布，以捕获恢复中的潜在变化。我们在各种修复任务的合成和真实案例上验证了 RaFE，在定量和定性评估方面都表现出卓越的性能，超过了其他特定于单个任务的 3D 修复方法。请参阅我们的项目网站 https URL。

5、CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

CoMat：将文本到图像扩散模型与图像到文本概念匹配对齐

摘要：扩散模型在文本到图像生成领域取得了巨大成功。然而，缓解文本提示和图像之间的错位仍然具有挑战性。错位背后的根本原因尚未得到广泛调查。我们观察到，错位是由标记注意力激活不足引起的。我们进一步将这种现象归因于扩散模型的条件利用不足，这是由其训练范式引起的。为了解决这个问题，我们提出了CoMat，这是一种具有图像到文本概念匹配机制的端到端扩散模型微调策略。我们利用图像字幕模型来测量图像到文本的对齐，并指导扩散模型重新访问被忽略的标记。针对属性绑定问题，还提出了一种新的属性集中模块。在没有任何图像或人类偏好数据的情况下，我们只使用 20K 文本提示来微调 SDXL 以获得 CoMat-SDXL。大量实验表明，CoMat-SDXL 在两个文本到图像对齐基准测试中明显优于基线模型 SDXL，并实现了最先进的性能。

6、The More You See in 2D, the More You Perceive in 3D

您在 2D 中看到的越多，您在 3D 中感知的就越多

摘要：人类可以根据过去的经验从物体的 2D 图像中推断出 3D 结构，并在看到更多图像时提高他们对 3D 的理解。受这种行为的启发，我们引入了 SAP3D，这是一个用于从任意数量的未摆姿势图像中进行 3D 重建和新颖视图合成的系统。给定一些物体的未摆姿势图像，我们通过测试时微调将预先训练的视图条件扩散模型与图像的相机姿势一起调整。然后，将适应的扩散模型和获得的相机姿态用作特定于实例的先验，以进行 3D 重建和新颖的视图合成。我们表明，随着输入图像数量的增加，我们的方法的性能得到提高，弥合了基于优化的无先验 3D 重建方法和基于单图像到 3D 扩散的方法之间的差距。我们在真实图像以及标准合成基准上演示我们的系统。我们的消融研究证实，这种适应行为是更准确地理解 3D 的关键。

7、OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

OpenNeRF：具有像素特征和渲染新颖视图的开放集 3D 神经场景分割

摘要：大型视觉语言模型（VLM）（如 CLIP）支持开放集图像分割，以零样本方式从图像中分割任意概念。这超越了传统的闭集假设，即模型只能从预定义的训练集中分割类。最近，文献中出现了关于3D场景中开放场景分割的第一批工作。这些方法深受处理点云或多边形网格的闭集 3D 卷积方法的影响。然而，这些 3D 场景表示与视觉语言模型的基于图像的性质并不完全一致。事实上，点云和 3D 网格的分辨率通常低于图像，并且重建的 3D 场景几何体可能无法很好地投影到用于计算像素对齐的 CLIP 特征的底层 2D 图像序列。为了应对这些挑战，我们提出了OpenNeRF，它自然地对摆姿势的图像进行操作，并直接对NeRF中的VLM特征进行编码。这在精神上与 LERF 相似，但是我们的研究表明，使用像素级 VLM 特征（而不是全局 CLIP 特征）可以降低整体架构的复杂性，而无需额外的 DINO 正则化。我们的 OpenNeRF 进一步利用 NeRF 的能力来渲染新颖的视图，并从初始摆姿势图像中未很好地观察到的区域中提取开放集 VLM 特征。对于副本数据集上的 3D 点云分割，OpenNeRF 的性能至少比 LERF 和 OpenScene 等最近的开放词汇方法高出 +4.9 mIoU。

8、Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

解耦静态和分层运动感知，用于引用视频分割

摘要：引用视频分割依赖于自然语言表达式来识别和分割对象，通常强调运动线索。以往的作品将句子视为一个整体，直接在视频层面进行识别，将静态图像层面的线索与时间运动线索混合在一起。然而，图像级特征不能很好地理解句子中的运动线索，静态线索对于时间感知并不重要。事实上，静态线索有时会通过掩盖运动线索来干扰时间感知。在这项工作中，我们建议将视频级别的指涉表达理解解耦为静态和运动感知，特别强调增强时间理解。首先，我们引入了一个表情解耦模块，使静态线索和运动线索发挥其独特的作用，缓解了句子嵌入忽略运动线索的问题。其次，我们提出了一个分层运动感知模块，以有效地捕获不同时间尺度的时间信息。此外，我们采用对比学习来区分视觉上相似物体的运动。这些贡献在五个数据集中产生了最先进的性能，包括对具有挑战性的 $\textbf{MeViS}$ 数据集的显着改进 $\textbf{9.2%}$ $\mathcal{J\&F}$。代码可在此 https URL 中找到。

9、DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior

DiffBody：通过使用生成扩散先验进行想象来恢复人体

摘要:人体修复在与人体相关的各种应用中起着至关重要的作用。尽管最近在使用生成模型的一般图像修复方面取得了进展，但它们在人体修复方面的表现仍然平庸，通常会导致前景和背景混合、表面纹理过度平滑、配件缺失和肢体扭曲。为了应对这些挑战，我们提出了一种新的方法，即构建人体感知扩散模型，利用特定领域的知识来提高性能。具体来说，我们采用预先训练的身体注意力模块来引导扩散模型对前景的关注，解决因主体和背景之间的混合而引起的问题。我们还通过无缝结合文本提示来提高表面纹理的质量以及额外的服装和配饰细节，展示了在修复任务中重新审视扩散模型的语言模式的价值。此外，我们还推出了一款专为细粒度人体部位量身定制的扩散采样器，利用局部语义信息来纠正肢体失真。最后，我们收集了一个全面的数据集，用于对标和推进人体修复领域。广泛的实验验证表明，我们的方法在定量和定性方面都优于现有方法。

10、WorDepth: Variational Language Prior for Monocular Depth Estimation

WorDepth：用于单目深度估计的变分语言

摘要：从单个图像进行三维（3D）重建是一个具有固有歧义（即比例）的病态问题。从文本描述中预测 3D 场景同样是不恰当的，即所描述的对象的空间排列。我们研究了两种固有的模态是否可以结合使用以产生度量尺度重建的问题。为了测试这一点，我们专注于单目深度估计，即从单个图像预测密集深度图的问题，但使用描述场景的附加文本标题。为此，我们首先将文本标题编码为平均值和标准差;使用变分框架，我们学习了与文本标题相对应的 3D 场景的合理度量重建的分布。为了“选择”特定的重建或深度图，我们通过条件采样器对给定的图像进行编码，该采样器从变分文本编码器的潜在空间中采样，然后将其解码为输出深度图。我们的方法在文本和图像分支之间交替训练：在一个优化步骤中，我们预测文本描述的平均值和标准偏差，并从标准高斯样本中预测，在另一个步骤中，我们使用（图像）条件采样器进行采样。训练完成后，我们使用条件采样器直接从编码文本中预测深度。我们在室内（NYUv2）和室外（KITTI）场景中展示了我们的方法，在这些场景中，我们展示了语言可以持续提高两者的性能。

11、Reference-Based 3D-Aware Image Editing with Triplane

使用Triplane进行基于参考的3D感知图像编辑

摘要：生成对抗网络（GAN）已成为强大的工具，不仅用于生成高质量的图像，而且通过操纵其可解释的潜在空间进行真实的图像编辑。GAN的最新进展包括开发3D感知模型，如EG3D，其特点是基于三翼飞机的高效架构，能够从单个图像重建3D几何形状。然而，很少有人关注为该领域内基于参考的高质量 3D 感知图像编辑提供集成框架。本研究通过探索和展示EG3D的三平面空间在实现基于参考的高级编辑方面的有效性来弥补这一差距，通过我们的新颖管道为3D感知图像编辑提供了独特的视角。我们的方法集成了三平面特征的编码、三平面域中特征的空间解纠缠和自动定位，以及用于所需图像编辑的融合学习。此外，我们的框架展示了跨领域的多功能性，将其有效性扩展到动物面部编辑和卡通肖像的部分风格化。该方法在定性和定量上都比相关的 3D 感知潜在编辑和基于 2D 参考的编辑方法有了显着改进。项目页面：此 https URL

12、Robust Concept Erasure Using Task Vectors

使用任务向量进行稳健的概念擦除

摘要：随着文本到图像模型的快速发展，人们提出了各种技术来防止不良图像生成。然而，这些方法通常只能防止特定的用户提示，并且已被证明允许使用其他输入进行不安全的生成。在这里，我们专注于无条件地从文本到图像模型中删除一个概念，而不是根据用户的提示来限制删除。我们首先表明，与依赖于输入的擦除方法相比，使用任务向量（TV）的概念擦除对意外的用户输入更可靠，这在训练期间是看不到的。但是，基于 TV 的擦除也会影响编辑模型的核心性能，尤其是在所需的编辑强度未知时。为此，我们提出了一种称为“多样化反转”的方法，我们用它来估计电视编辑所需的强度。多元反转在模型输入空间中找到一大组词嵌入，每个词嵌入都诱导出目标概念的生成。我们发现，鼓励集合中的多样性使我们的估计对意外提示更加可靠。最后，我们表明，多样化反演使我们能够仅将电视编辑应用于模型权重的子集，从而增强了擦除能力，同时更好地维护了模型的核心功能。

13、LCM-Lookahead for Encoder-based Text-to-Image Personalization

LCM-Lookahead，用于基于编码器的文本到图像个性化

摘要：扩散模型的最新进展引入了快速采样方法，只需一个或几个去噪步骤即可有效地生成高质量的图像。有趣的是，当这些从现有的扩散模型中提炼出来时，它们通常与原始模型保持一致，为相似的提示和种子保留相似的输出。这些特性为利用快速采样方法作为快捷方式提供了机会，使用它们来创建去噪输出的预览，通过该预览我们可以反向传播图像空间损失。在这项工作中，我们探索了使用这种快捷方式机制来指导文本到图像模型的个性化到特定面部身份的潜力。我们专注于基于编码器的个性化方法，并证明通过前瞻身份丢失来调整它们，我们可以在不牺牲布局多样性或快速对齐的情况下实现更高的身份保真度。我们进一步探索了在个性化任务中使用注意力共享机制和一致的数据生成，并发现编码器培训可以从两者中受益。

14、DeViDe: Faceted medical knowledge for improved medical vision-language pre-training

DeViDe：用于改进医学视觉语言预训练的多面医学知识

摘要：胸部 X 光检查的视觉语言预训练取得了重大进展，主要是通过利用成对的 X 光片和放射学报告。然而，现有方法在有效编码医学知识方面往往面临挑战。虽然放射学报告提供了对当前疾病表现的见解，但医学定义（当代方法使用）往往过于抽象，从而造成了知识空白。为了解决这个问题，我们提出了DeViDe，这是一种基于转换器的新型方法，它利用了来自开放网络的射线照相描述。这些描述概述了 X 光片中疾病的一般视觉特征，当与抽象定义和放射学报告相结合时，提供了知识的整体快照。DeViDe包含知识增强视觉语言对齐的三个关键功能：首先，采用基于大语言模型的增强来同质化来自不同来源的医学知识。其次，这些知识与不同粒度级别的图像信息保持一致。第三，提出了一种新的投影层，用于处理在多标签设置中将每个图像与多个描述对齐的复杂性。在零样本设置下，DeViDe在外部数据集上的表现与完全监督模型相当，并在三个大规模数据集上取得了最先进的结果。此外，在四个下游任务和六个分段任务上对 DeViDe 进行微调，展示了其在来自不同分布的数据中的卓越性能。

15、Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting

基于每高斯嵌入的变形，用于可变形的 3D 高斯飞溅

摘要：由于 3D 高斯飞溅（3DGS）提供了快速、高质量的新颖视图合成，因此将规范的 3DGS 变形为多个帧是一种自然的扩展。然而，以往的作品未能准确重建动态场景，特别是1）静态部分沿着附近的动态部分移动，以及2）一些动态区域模糊不清。我们将失败归因于变形场的错误设计，变形场是作为基于坐标的函数构建的。这种方法是有问题的，因为 3DGS 是以高斯为中心的多个场的混合体，而不仅仅是一个基于坐标的框架。为了解决这个问题，我们将变形定义为每高斯嵌入和时间嵌入的函数。此外，我们将变形分解为粗变形和细变形，以分别模拟慢速和快速运动。此外，我们还引入了一种高效的培训策略，以实现更快的收敛和更高的质量。项目页面：此 https URL

16、InsectMamba: Insect Pest Classification with State Space Model

InsectMamba：基于状态空间模型的害虫分类

摘要：害虫分类是农业技术中的一项关键任务，对于确保粮食安全和环境可持续性至关重要。然而，由于高度伪装和物种多样性等因素，害虫识别的复杂性构成了重大障碍。现有方法难以区分密切相关的害虫物种所需的细粒度特征提取。尽管最近的进展利用了改进的网络结构和结合的深度学习方法来提高准确性，但由于害虫与其周围环境之间的相似性，挑战仍然存在。为了解决这个问题，我们引入了InsectMamba，这是一种新颖的方法，它集成了状态空间模型（SSM）、卷积神经网络（CNN）、多头自注意力机制（MSA）和Mix-SSM模块中的多层感知器（MLP）。这种集成通过利用每种编码策略的优势来促进全面视觉特征的提取。该文还提出了一个选择性模块来自适应地聚合这些特征，从而增强了模型识别害虫特征的能力。InsectMamba 在五个害虫分类数据集中与强大的竞争对手进行了评估。结果证明了其优越的性能，并通过消融研究验证了每个模型组件的重要性。

17、SemGrasp: Semantic Grasp Generation via Language Aligned Discretization

SemGrasp：通过语言对齐离散化生成语义抓取

摘要：生成自然的人类把握不仅需要考虑对象几何形状，还需要考虑语义信息。仅依靠对象形状来生成抓取，限制了先前方法在下游任务中的应用。本文提出了一种基于语义的抓握生成方法，称为SemGrasp，该方法通过将语义信息整合到抓握表示中来生成静态的人类抓握姿势。我们引入了一种离散表示，将抓握空间与语义空间对齐，从而能够根据语言指令生成抓握姿势。随后对多模态大型语言模型（MLLM）进行微调，将对象、抓取和语言集成到一个统一的语义空间中。为了方便 SemGrasp 的训练，我们编译了一个名为 CapGrasp 的大规模、抓取文本对齐的数据集，其中包含大约 260k 个详细标题和 50k 个不同的抓取。实验结果表明，SemGrasp 可以有效地生成符合语言意图的自然人类抓握。我们的代码、模型和数据集可在以下网址公开获得：此 https URL。

18、Towards more realistic human motion prediction with attention to motion coordination

注重运动协调，实现更逼真的人体运动预测

摘要：关节关系建模是人体运动预测中的一个关键组成部分。现有的大多数方法都依赖于基于骨骼的图来构建关节关系，其中关节对之间的局部交互关系得到了很好的学习。然而，运动协调是一种反映所有关节同时合作的全局关节关系，通常被削弱，因为它是从部分到整体逐步和异步学习的。因此，最终预测的运动通常看起来不切实际。为了解决这个问题，我们从运动的时空特征中学习了一种称为协调吸引子（CA）的媒介，以表征全局运动特征，随后用于建立新的相对联合关系。通过CA，所有关节同时相关，因此可以更好地学习所有关节的运动协调。基于此，我们进一步提出了一种新型的关节关系建模模块，即综合关节关系提取器（CJRE），以统一的方式将这种运动协调与关节对之间的局部相互作用结合起来。此外，我们还提出了一个多时间尺度动力学提取器（MTDE），用于从原始位置信息中提取丰富的动力学，以实现有效的预测。大量实验表明，所提出的框架在H3.6M、CMU-Mocap和3DPW的短期和长期预测中都优于最先进的方法。

19、DreamScene: 3D Gaussian-based Text-to-3D Scene Generation via Formation Pattern Sampling

DreamScene：基于地层模式采样的基于3D高斯的文本到3D场景生成

摘要：文本到 3D 场景生成在游戏、电影和建筑领域具有巨大的潜力。尽管取得了重大进展，但现有方法在保持高质量、一致性和编辑灵活性方面存在困难。在本文中，我们提出了基于3D高斯的新型文本到3D场景生成框架DreamScene，主要通过两种策略来解决上述三个挑战。首先，DreamScene 采用 Formation Pattern Sampling （FPS），这是一种以 3D 对象的形成模式为指导的多时间步长采样策略，以形成快速、语义丰富且高质量的表示。FPS 使用 3D 高斯滤波来优化稳定性，并利用重建技术生成合理的纹理。其次，DreamScene采用逐级三段式摄像机采样策略，专为室内和室外环境设计，有效保证对象环境一体化和场景范围的3D一致性。最后，DreamScene 通过集成对象和环境来增强场景编辑的灵活性，从而实现有针对性的调整。大量的实验验证了DreamScene相对于当前最先进的技术的优势，预示着它在各种应用中的广泛潜力。代码和演示将在此 https URL 上发布。

20、TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices

TinyVQA：紧凑型多模态深度神经网络，用于在资源受限设备上进行视觉问答

摘要：传统的机器学习模型通常需要强大的硬件，因此不适合部署在资源有限的设备上。微型机器学习（tinyML）已成为在这些设备上运行机器学习模型的一种有前途的方法，但由于复杂性、延迟和功耗的增加，将多种数据模态集成到 tinyML 模型中仍然是一个挑战。本文提出了TinyVQA，这是一种用于视觉问答任务的新型多模态深度神经网络，可以部署在资源受限的tinyML硬件上。TinyVQA利用基于注意力的监督模型来学习如何使用视觉和语言模式回答有关图像的问题。从基于监督注意力的VQA模型中提取的知识训练内存感知紧凑的TinyVQA模型，并采用低位宽量化技术进一步压缩模型，以便在tinyML设备上部署。TinyVQA模型在FloodNet数据集上进行了评估，该数据集用于灾后损失评估。紧凑的模型实现了 79.5% 的准确率，证明了 TinyVQA 在实际应用中的有效性。此外，该模型还部署在 Crazyflie 2.0 无人机上，配备了 AI 甲板和 GAP8 微处理器。TinyVQA 模型在部署在微型无人机上时实现了 56 毫秒的低延迟和 693 mW 的功耗，展示了其对资源受限的嵌入式系统的适用性。

马拉AI

关注

8
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
CV最新论文｜4月5日 arXiv更新论文合集

以下内容由马拉AI整理，今天为大家带来4月5日 arXiv 计算机视觉和模式识别相关论文：1、Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning了解你的邻居：通过空间视觉-语言推理改进单视图重建摘要：从单个视图恢复 3D 场景几何体是计算机视觉中一个基本但不恰当的问题。虽然经典的深度估计方法只能推断出局限于图像平面的 2.5D 场景表示，但最近基于辐射场的方
复制链接

扫一扫