CV最新论文｜4月2日 arXiv更新论文合集

最新推荐文章于 2025-05-25 09:00:01 发布

原创最新推荐文章于 2025-05-25 09:00:01 发布 · 1.1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #机器学习 #人工智能 #深度学习 #大数据 #AIGC #AI-native

本文整理了4月2日arXiv计算机视觉和模式识别相关论文，涵盖多个领域。如NeRF - MAE用于神经辐射场3D表示学习；CausalChaos构建因果行动问答数据集；Noise2Image可恢复事件摄像机静态场景等。这些研究为计算机视觉和模式识别发展提供新方法和思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下内容由马拉AI整理，今天为大家带来4月2日 arXiv 计算机视觉和模式识别相关论文：

1、NeRF-MAE : Masked AutoEncoders for Self Supervised 3D representation Learning for Neural Radiance Fields

NeRF-MAE：用于神经辐射场的自监督 3D 表示学习的屏蔽自动编码器

摘要：神经场在计算机视觉和机器人技术中表现出色，因为它们能够理解 3D 视觉世界，例如推断语义、几何和动力学。鉴于神经场在从 2D 图像中密集表示 3D 场景的能力，我们提出了一个问题：我们是否可以扩展他们的自我监督预训练，特别是使用掩蔽的自动编码器，以从摆放的 RGB 图像中生成有效的 3D 表示。由于将变压器扩展到新颖的数据模式取得了惊人的成功，我们采用标准的 3D 视觉变压器来适应 NeRF 的独特配方。我们利用 NeRF 的体积网格作为变压器的密集输入，将其与其他 3D 表示（例如点云）进行对比，其中信息密度可能不均匀且表示不规则。由于将掩码自动编码器应用于隐式表示（如 NeRF）的困难，我们选择提取显式表示，通过使用相机轨迹进行采样来规范跨域的场景。我们的目标是通过从 NeRF 的辐射度和密度网格中屏蔽随机斑块，并使用标准的 3D Swin Transformer 来重建屏蔽的斑块来实现的。在此过程中，模型可以学习完整场景的语义和空间结构。我们在我们提议的精选姿势 RGB 数据上大规模预训练这种表示，总计超过 160 万张图像。预训练后，编码器将用于有效的 3D 迁移学习。我们针对 NeRF 的新型自监督预训练 NeRF-MAE 具有非常好的扩展性，并提高了各种具有挑战性的 3D 任务的性能。利用未标记的摆姿势 2D 数据进行预训练，NeRF-MAE 在 Front3D 和 ScanNet 数据集上的性能明显优于自监督 3D 预训练和 NeRF 场景理解基线，3D 对象检测的绝对性能提升超过 20% 的 AP50 和 8% 的 AP25。

2、CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

因果混沌！基于动态视觉场景的较长因果链上的综合因果行动问答数据集

摘要：因果视频问答（QA）引起了越来越多的关注，但现有的数据集往往缺乏因果推理分析的深度。为了弥补这一差距，我们利用卡通的独特属性并构建了 CausalChaos！，这是一个基于标志性的“汤姆和杰瑞”卡通系列构建的新颖、具有挑战性的因果 Why-QA 数据集。通过深思熟虑的问题和多层次的答案，我们的数据集包含嵌入在动态交互和视觉效果中的更长的因果链，同时动画原理允许动画师创建定义明确、明确的因果关系。这些因素使模型能够解决更具挑战性但定义明确的因果关系。我们还引入了硬负挖掘，包括 CausalConfusion 版本。虽然模型表现良好，但还有很大的改进空间，尤其是在开放式答案方面。我们将更高级/明确的因果关系建模以及视觉和语言的联合建模确定为未来努力重点关注的直接领域。与其他互补数据集一起，我们新的具有挑战性的数据集将为该领域的这些发展铺平道路。我们将发布我们的数据集、代码和模型，以帮助该领域的未来工作。

3、Noise2Image: Noise-Enabled Static Scene Recovery for Event Cameras

Noise2Image：事件摄像机的启用噪声的静态场景恢复

摘要：事件摄像机将强度随时间的变化作为“事件”流捕获，通常无法测量强度本身;因此，它们仅用于对动态场景进行成像。然而，由于随机光子到达引起的波动不可避免地会触发噪声事件，即使对于静态场景也是如此。虽然以前的工作重点是过滤掉这些不需要的噪声事件以提高信号质量，但我们发现，在光子噪声范围内，这些噪声事件与静态场景强度相关。我们分析了噪声事件的产生，并模拟了其与照度的关系。基于这种理解，我们提出了一种称为Noise2Image的方法，以利用与照度相关的噪声特性来恢复场景的静态部分，否则这些部分对事件摄像机来说是不可见的。我们通过实验收集了静态场景上的噪声事件数据集，以训练和验证 Noise2Image。我们的结果表明，Noise2Image 可以仅从噪声事件中稳健地恢复强度图像，为在事件摄像机中捕获静态场景提供了一种新方法，无需额外的硬件。

4、Streaming Dense Video Captioning

流式密集视频字幕

摘要：密集视频字幕的理想模型 - 预测视频中时间定位的字幕 - 应该能够处理长输入视频，预测丰富、详细的文本描述，并能够在处理整个视频之前生成输出。然而，当前最先进的模型会处理固定数量的下采样帧，并在观看整个视频后进行一次完整预测。我们提出了一种由两个新组件组成的流密集视频字幕模型：首先，我们提出了一个基于聚类传入令牌的新内存模块，该模块可以处理任意长的视频，因为内存是固定大小的。其次，我们开发了一种流式解码算法，使我们的模型能够在整个视频被处理之前做出预测。我们的模型实现了这种流式处理能力，并显着提高了三个密集视频字幕基准测试的最新水平：ActivityNet、YouCook2 和 ViTT。我们的代码在此 https URL 上发布。

5、MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space

MagicMirror：在有限的搜索空间下快速生成高质量的头像

摘要：我们引入了一种用于 3D 人类化身生成和个性化的新框架，利用文本提示来增强用户参与度和定制性。我们方法的核心是旨在克服照片级逼真化身合成挑战的关键创新。首先，我们利用条件神经辐射场（NeRF）模型，在大规模无注释的多视图数据集上训练，创建一个多功能的初始解决方案空间，加速和多样化化身生成。其次，我们利用文本到图像扩散模型的功能开发了一个几何先验，以确保卓越的视图不变性，并实现化身几何的直接优化。这些基本理念得到了我们基于变分蒸馏（VSD）构建的优化管道的补充，该管道可减轻纹理损失和过度饱和问题。在我们广泛的实验支持下，这些策略共同支持创建具有无与伦比的视觉质量和更好地遵守输入文本提示的自定义头像。您可以在我们的网站上找到更多结果和视频：此 https URL

6、CosmicMan: A Text-to-Image Foundation Model for Humans

CosmicMan：人类的文本到图像基础模型

摘要：我们介绍了 CosmicMan，这是一种专门用于生成高保真人类图像的文本到图像基础模型。与目前陷入质量低劣和文像错位困境的通用基础模型不同，CosmicMan 能够生成外观细致、结构合理、文本-图像对齐精确、详细密集描述的逼真人体图像。CosmicMan 成功的核心是对数据和模型的新思考和观点：（1）我们发现数据质量和可扩展的数据生产流程对于训练模型的最终结果至关重要。因此，我们提出了一种新的数据生产范式，即 Annotate Anyone，它作为一个永久的数据飞轮，随着时间的推移生成具有准确且具有成本效益的注释的高质量数据。基于此，我们构建了一个大型数据集CosmicMan-HQ 1.0，其中包含600万张平均分辨率为1488x1255的高质量真实世界人类图像，并附有来自1.15亿个不同粒度属性的精确文本注释。（2）我们认为，专门用于人类的文本到图像基础模型必须是务实的——易于集成到下游任务中，同时有效地生成高质量的人类图像。因此，我们提出以分解的方式对密集文本描述与图像像素之间的关系进行建模，并提出分解-注意力-重新聚焦（Daring）训练框架。它无缝地分解了现有文本到图像扩散模型中的交叉注意力特征，并在不添加额外模块的情况下强制执行注意力重新聚焦。通过Daring，我们表明，将连续文本空间明确地离散化为几个与人体结构对齐的基本组是轻而易举地解决错位问题的关键。

7、Measuring Style Similarity in Diffusion Models

测量扩散模型中的风格相似性

摘要：生成模型现在被平面设计师和艺术家广泛使用。先前的研究表明，这些模型在生成过程中会记住并经常复制其训练数据中的内容。因此，随着它们的增殖增加，每次在将生成的图像用于专业目的之前，执行数据库搜索以确定图像的属性是否可归因于特定的训练数据变得很重要。用于此目的的现有工具侧重于检索具有相似语义内容的图像。同时，许多艺术家关注文本到图像模型中的风格复制。我们提出了一个框架，用于从图像中理解和提取风格描述符。我们的框架包括一个新的数据集，该数据集使用以下见解进行策划：风格是图像的主观属性，它捕捉了复杂但有意义的因素相互作用，包括但不限于颜色、纹理、形状等。我们还提出了一种提取样式描述符的方法，该描述符可用于将生成图像的样式归因于文本到图像模型的训练数据集中使用的图像。我们在各种样式检索任务中展示了有希望的结果。我们还定量和定性地分析了稳定扩散模型中的风格归因和匹配。代码和项目可在此 https URL 中找到。

8、Evaluating Text-to-Visual Generation with Image-to-Text Generation

使用图像到文本生成评估文本到视觉的生成

摘要：尽管生成式人工智能取得了重大进展，但由于缺乏有效的指标和标准化基准，综合评估仍然具有挑战性。例如，广泛使用的 CLIPScore 测量（生成的）图像和文本提示之间的对齐情况，但它无法为涉及对象、属性和关系组合的复杂提示生成可靠的分数。其中一个原因是，CLIP的文本编码器可以臭名昭著地充当“单词袋”，将“马正在吃草”和“草正在吃马”等提示混为一谈。为了解决这个问题，我们引入了 VQAScore，它使用视觉问答（VQA）模型，通过计算简单“此图是否显示'{text}'？”问题的“是”答案的概率来生成对齐分数。虽然比现有技术更简单，但使用现成模型计算的 VQAScore 在许多（8）个图像-文本对齐基准中产生了最先进的结果。我们还使用遵循文献最佳实践的内部模型计算 VQAScore。例如，我们使用双向图像问题编码器，允许图像嵌入依赖于所提出的问题（反之亦然）。我们的内部模型 CLIP-FlanT5 甚至优于使用专有 GPT-4V 的最强基线。有趣的是，虽然我们只使用图像进行训练，但 VQAScore 也可以将文本与视频和 3D 模型对齐。VQAScore允许研究人员使用复杂的文本来对文本到视觉的生成进行基准测试，这些文本可以捕获真实世界提示的组合结构。我们引入了 GenAI-Bench，这是一个更具挑战性的基准测试，具有 1,600 个合成文本提示，需要解析场景、对象、属性、关系以及比较和逻辑等高阶推理。GenAI-Bench 还为 Stable Diffusion、DALL-E 3 和 Gen2 等领先的图像和视频生成模型提供超过 15,000 个人类评分。

9、Large Motion Model for Unified Multi-Modal Motion Generation

用于统一多模态运动生成的大型运动模型

摘要:人体动作生成是动画和视频制作的基石技术，在文本到动作和音乐到舞蹈等各种任务中都有广泛的应用。以前的工作重点是开发为每个任务量身定制的专业模型，而没有可扩展性。在这项工作中，我们提出了大型运动模型（LMM），这是一个以运动为中心的多模态框架，它将主流运动生成任务统一到一个通用模型中。统一的运动模型很有吸引力，因为它可以利用广泛的运动数据来实现超越单个任务的广泛泛化。然而，由于运动数据和任务的异构性，这也具有挑战性。LMM从三个原则方面应对这些挑战：1）数据：我们将具有不同模式、格式和任务的数据集整合到一个全面而统一的运动生成数据集MotionVerse中，该数据集包括10个任务，16个数据集，总共320k个序列和1亿帧。2）架构：我们设计了一种铰接式注意力机制ArtAttention，将身体部位感知建模整合到扩散变压器主干中。3）预训练：我们提出了一种新的LMM预训练策略，该策略采用可变帧速率和掩蔽形式，以更好地利用来自不同训练数据的知识。大量实验表明，与最先进的专业模型相比，我们的通用 LMM 在各种标准运动生成任务中取得了具有竞争力的性能。值得注意的是，LMM 在许多看不见的任务中表现出强大的泛化能力和新兴属性。此外，我们的消融研究揭示了有关训练和扩展大型运动模型以供未来研究的宝贵见解。

10、LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization

LoSA：用于扩展端到端时间动作定位的长短程适配器

摘要：时间动作定位（TAL）涉及对未修剪视频中的动作片段进行定位和分类。大型视频基础模型的出现使纯RGB视频主干网的性能优于以前需要RGB和光流模式的方法。利用这些大型模型通常仅限于训练 TAL 头，因为调整 TAL 视频主干所需的 GPU 内存过大。为了克服这一限制，我们推出了 LoSA，这是第一个专为 TAL 设计的内存和参数高效骨干适配器，用于处理未修剪的视频。LoSA 通过引入长短距离适配器来专门针对 TAL，这些适配器可在不同的时间范围内调整视频主干的中间层。这些适配器与视频主干并行运行，以显著减少内存占用。LoSA 还包括 Long-Short Range Fusion，它战略性地组合了这些适配器来自视频主干层的输出，以增强提供给 TAL 头的视频功能。实验表明，LoSA在标准TAL基准测试THUMOS-14和ActivityNet-v1.3上明显优于所有现有方法，方法是将端到端主干适配扩展到VideoMAEv2~（ViT-g）等数十亿参数以上的模型，并利用它们超越纯头部迁移学习。

11、BiPer: Binary Neural Networks using a Periodic Function

BiPer：使用周期函数的二元神经网络

摘要：量化神经网络对权重和激活都采用低精度表示。这种量化过程大大降低了网络的内存需求和计算复杂性。二进制神经网络（BNN）是极端量化情况，仅用一位表示值。由于符号函数通常用于将实数值映射到二进制值，因此引入了平滑近似值来模拟误差反向传播期间的梯度。因此，前向和后向模型之间的不匹配会破坏梯度的方向，从而导致训练不一致问题和性能下降。与当前的BNN方法相比，我们建议在二值化过程中采用二元周期（BiPer）函数。具体来说，我们使用方波进行正向传递来获得二进制值，并在向后传递期间使用具有相同方波周期的三角正弦函数作为可微代理。我们证明了这种方法可以通过使用周期函数的频率来控制量化误差，并提高网络性能。大量的实验验证了BiPer在基准数据集和网络架构中的有效性，与CIFAR-10和ImageNet相比，BiPer在分类任务中分别提高了1%和0.69%。我们的代码在此 https URL 上公开提供。

12、Language Guided Domain Generalized Medical Image Segmentation

语言引导域广义医学影像分割

摘要：单一源域泛化（SDG）有望在真实世界的临床环境中实现更可靠和一致的图像分割，尤其是在医疗领域，数据隐私和采集成本限制通常会限制不同数据集的可用性。仅依赖于视觉特征会阻碍模型有效适应各种领域的能力，这主要是因为图像特征中嵌入了虚假相关性和特定领域特征。将文本特征与视觉特征相结合是增强模型对数据理解的潜在解决方案，因为它超越了像素级信息，提供了有价值的上下文。描述解剖结构、它们的外观和各种成像模式的变化的文本线索可以指导模型进行域适应，最终有助于更稳健和一致的分割。在本文中，我们提出了一种明确利用文本信息的方法，通过结合由文本编码器特征引导的对比学习机制来学习更鲁棒的特征表示。我们评估了文本引导对比特征对齐技术在各种场景中的有效性，包括针对不同分割任务的跨模态、跨序列和跨站点设置。与文献中的现有方法相比，我们的方法取得了良好的性能。我们的代码和模型权重可在此 https URL 上找到。

13、Bridging Remote Sensors with Multisensor Geospatial Foundation Models

将远程传感器与多传感器地理空间基础模型桥接

摘要：在地理空间分析领域，包括光学和微波技术在内的远程传感器的多样性提供了丰富独特的观测能力。认识到这一点，我们提出了msGFM，这是一个多传感器地理空间基础模型，可以有效地统一来自四个关键传感器模式的数据。这种集成跨越了包含 200 万张多传感器图像的庞大数据集。msGFM在处理配对和未配对的传感器数据方面具有独特的优势。对于来自相同地理位置的数据，我们的模型在掩码图像建模中采用了创新的跨传感器预训练方法，能够合成来自不同传感器的联合表示。msGFM集成了四个远程传感器，保持了强大的性能，形成了一个适应各种传感器类型的综合模型。msGFM在一系列单传感器和多传感器下游任务中都表现出了更高的熟练程度。其中包括场景分类、分割、云移除和云锐化。我们研究的一个关键发现是，从自然图像中得出的表示并不总是与地理空间遥感器的独特特征兼容，这凸显了该领域现有表示的局限性。我们的工作可以作为开发多传感器地理空间预训练模型的指南，为更高级的地理空间功能铺平道路。

14、Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

基于语言模型奖励的视频大型多模态模型的直接偏好优化

摘要：偏好建模技术，如直接偏好优化（DPO），已被证明可以有效增强大型语言模型（LLM）的泛化能力。然而，在涉及视频指令跟踪的任务中，提供信息反馈，特别是用于检测生成的响应中的幻觉，仍然是一个重大挑战。以前的研究已经探索了使用大型大型多模态模型（LMM）作为奖励模型来指导偏好建模，但与相应视频相比，它们准确评估生成响应的真实性的能力尚未最终确定。本文介绍了一种新的框架，该框架利用详细的视频字幕作为视频内容的代理，使语言模型能够将这些信息作为对视频问答（QA）预测进行评分的支持证据。我们的方法展示了与 OpenAI GPT-4V 模型的奖励机制的稳健一致性，该机制直接将视频帧作为输入。此外，我们表明，通过 DPO 应用这种量身定制的奖励可以显着提高视频 LMM 在视频 QA 任务中的性能。

15、FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Registration

FireANTs：用于多尺度微分配准的自适应黎曼优化

摘要：微分同形图像配准是各种成像模式和下游任务（如图像翻译、分割和图谱构建）分析的关键部分。基于优化的配准算法在各种模式和采集设置的准确性、可靠性和鲁棒性方面经受住了时间的考验。然而，这些算法收敛缓慢，运行成本高得令人望而却步，而且它们的使用需要陡峭的学习曲线，限制了它们在更大规模的临床和科学研究中的可扩展性。在本文中，我们开发了用于微分同态图像配准的多尺度自适应黎曼优化算法。我们通过测量注册图像体积的结构和地标重叠，展示了在一系列模态和解剖学上的图像配准方面令人信服的改进。我们提出的框架导致了性能的持续改进，并且比现有算法加速了 300 倍到 2000 倍。我们的模块化库设计使其易于使用，并允许通过用户定义的成本函数进行定制。

16、Scalable Scene Modeling from Perspective Imaging: Physics-based Appearance and Geometry Inference

透视成像的可扩展场景建模：基于物理的外观和几何推断

摘要：3D 场景建模技术是地理空间工程和计算机科学的基石，它推动了许多应用，包括自动驾驶、地形测绘、导航、虚拟、增强、混合和扩展现实（用于游戏和电影行业等）。这篇论文介绍了在外观和几何建模方面将 3D 场景建模提升到最先进水平的一小部分贡献。与流行的深度学习方法相比，作为核心贡献，本论文旨在开发遵循第一性原理的算法，其中引入了复杂的基于物理的模型以及更简单的学习和推理任务。这些算法的结果产生的过程可以消耗更多的数据量，以便在不损失方法学通用性的情况下大规模地重建 3D 场景，这是当代基于复杂模型的深度学习方法无法实现的。具体来说，这篇论文介绍了三种新方法，解决了通过基于物理的建模推断外观和几何形状的挑战。

总体而言，这篇论文中包含的研究标志着在处理复杂数据集方面取得了一系列方法论上的胜利。通过深度学习、计算几何和摄影测量的融合，这项工作为未来在快速发展的三维场景重建领域的探索和实际应用奠定了一个强大的框架。这些研究的结果通过严格的实验和与现有最先进方法的比较得到了证明，证明了所提出方法的有效性和可扩展性。

17、A Unified and Interpretable Emotion Representation and Expression Generation

统一且可解释的情感表征和表达生成

摘要：典型的情绪，如快乐、悲伤和恐惧，很容易理解和注释。然而，情绪通常是复合的，例如快乐的惊讶，并且可以映射到用于表达情绪的动作单元（AU），并且微不足道地映射到规范的动作单元。直观地说，情绪是连续的，由唤醒价（AV）模型表示。这四种模式（即规范、复合、AU 和 AV）的可解释统一是非常可取的，以便更好地表示和理解情绪。然而，这种统一在目前的文献中仍然未知。在这项工作中，我们提出了一个可解释和统一的情感模型，称为C2A2。我们还开发了一种方法，利用非统一模型的标签来注释新的统一模型。最后，我们修改了文本条件扩散模型来理解连续数字，然后使用我们的统一情感模型来生成连续表达式。通过定量和定性实验，我们证明了我们生成的图像是丰富的，并捕捉到了微妙的表情。我们的工作允许与其他文本输入结合细粒度地生成表达，同时为情感提供新的标签空间。

18、StructLDM: Structured Latent Diffusion for 3D Human Generation

StructLDM：用于 3D 人类生成的结构化潜在扩散

摘要：最近的 3D 人类生成模型通过从 2D 图像中学习 3D 感知 GAN 取得了显着进展。然而，现有的 3D 人类生成方法在紧凑的一维潜在空间中模拟人类，忽略了人体拓扑结构的衔接结构和语义。在本文中，我们探索了更具表现力和更高维的3D人体建模潜在空间，并提出了StructLDM，这是一种基于扩散的无条件3D人体生成模型，该模型是从2D图像中学习的。StructLDM通过三个关键设计解决了潜在空间的高维增长带来的挑战：1）在统计人体模板的密集表面流形上定义的语义结构潜在空间。2）一种结构化的3D感知自动解码器，它将全局潜在空间分解为几个语义身体部分，这些部分由一组锚定到身体模板的条件结构化局部NeRF参数化，它嵌入了从2D训练数据中学习的属性，并且可以解码以在不同的姿势和服装风格下呈现视图一致的人类。3）用于生成人类外观采样的结构化潜在扩散模型。大量的实验验证了 StructLDM 最先进的生成性能，并说明了结构化潜在空间相对于广泛采用的一维潜在空间的表现力。值得注意的是，StructLDM 支持不同级别的可控 3D 人体生成和编辑，包括姿势/视图/形状控制，以及包括构图生成、零件感知服装编辑、3D 虚拟试穿等高级任务。我们的项目页面位于：此 https URL。

19、SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering

SurMo：用于动态人体渲染的基于表面的 4D 运动建模

摘要：通过将渲染表述为从静态姿势到人体图像的映射，从视频序列中动态人体渲染取得了显着进展。然而，现有方法侧重于每一帧的人体外观重建，而时间运动关系尚未得到充分探索。在本文中，我们提出了一种新的 4D 运动建模范式 SurMo，它通过三个关键设计在一个统一的框架中共同模拟时间动力学和人类外观：1）基于表面的运动编码，使用高效紧凑的基于表面的三平面对 4D 人体运动进行建模。它在统计体模板的密集表面流形上编码空间和时间运动关系，该模板继承了体拓扑先验，用于具有稀疏训练观测值的可推广的新视图综合。2）物理运动解码，旨在通过对时间步长 t 的运动三平面特征进行解码来鼓励物理运动学习，以预测训练阶段下一个时间步 t+1 的空间导数和时间导数。3） 4D 外观解码，通过高效的体积表面调节渲染器将运动三平面渲染成图像，该渲染器专注于使用运动学习条件渲染身体表面。大量的实验验证了我们新范式的最新性能，并说明了基于表面的运动三翼飞机的表现力，用于渲染具有快速运动甚至运动相关阴影的高保真视图一致的人类。我们的项目页面位于：此 https URL

20、Feature Splatting: Language-Driven Physics-Based Scene Synthesis and Editing

特征 Splatting：语言驱动的基于物理的场景合成和编辑

摘要：使用 3D 高斯基元的场景表示在静态和动态 3D 场景的外观建模方面产生了出色的效果。然而，许多图形应用程序需要能够操作对象的外观和物理属性。我们引入了 Feature Splatting，这是一种将基于物理的动态场景合成与基于自然语言的视觉语言基础模型的丰富语义相结合的方法。我们的第一个贡献是将高质量的、以对象为中心的视觉语言特征提炼成 3D 高斯，从而使用文本查询实现半自动场景分解。我们的第二个贡献是使用基于粒子的模拟器从静态场景中合成基于物理的动态，其中材料属性通过文本查询自动分配。我们总结了该管道中使用的关键技术，以说明使用带有特征的 3D 高斯作为基于自然语言的外观、几何、材料属性和语义的统一格式的挑战和机遇。项目网站：此 https URL