ECCV 2024 | 真妙!21项研究用diffusion扩散模型做3D视觉!(附源码地址)

针对最新的ECCV 2024研究成果,本文精心挑选汇总、并概述了21项使用扩散模型做3D相关的研究工作。



1、3DEgo: 3D Editing on the Go!

c4f0c1feb1aba6e4fcac7477a6fb8e51.png

提出3DEgo,解决一个新问题,即通过文本提示指导从单目视频直接合成逼真的3D场景。传统方法通过一个三阶段过程构建一个文本条件的3D场景,涉及使用诸如COLMAP的Structure-from-Motion(SfM)库进行姿态估计,使用未编辑的图像初始化3D模型,并通过迭代地使用编辑后的图像更新数据集,以实现文本保真度的3D场景。

通过克服对COLMAP的依赖和消除模型初始化的成本,将传统的多阶段3D编辑过程简化为单阶段工作流程。采用扩散模型在创建3D场景之前编辑视频帧,包括设计的噪声融合模块,以增强多视图编辑的一致性,这一步骤不需要额外训练或微调T2I扩散模型。3DEgo利用3D高斯扩散来从多视角一致的编辑帧创建3D场景,利用固有的时间连续性和显式点云数据。

3DEgo在各种视频来源上的编辑精度、速度和适应性,通过对六个数据集进行全面评估来验证,包括自建的GS25数据集。https://3dego.github.io/

2、COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation

32605625a4446297f964dcebe5601c0d.png

从移动相机中估计全局人类运动,由于人类运动和相机运动的耦合而具有挑战性。为减轻这种模糊,现有方法利用学习的人类运动先验,然而这经常导致运动过度平滑和不对齐的2D投影。为解决这一问题,提出COIN,一种控制-修补运动扩散先验,使得可以对人类和相机运动进行细粒度控制以解耦。

尽管预训练的运动扩散模型编码了丰富的运动先验,但难以利用此类知识来指导从RGB视频中对全局运动的估计。COIN引入一种新的控制-修补评分蒸馏抽样方法,以确保扩散先验中的控制-修补分数对齐、一致和高质量,同时在一个联合优化框架中。此外引入一个新的人类-场景关系损失,通过在人类、相机和场景之间强制一致性,减轻尺度模糊。

针对三个具有挑战性的基准测试,实验证明COIN有效性,在全局人类运动估计和相机运动估计方面优于最先进方法。https://nvlabs.github.io/COIN/

3、Diff3DETR: Agent-based Diffusion Model for Semi-supervised 3D Object Detection

eed39962e42718fb8af1356f86c5eb7f.png

三维物体检测对于理解三维场景至关重要。通常需要大量标注的训练数据,然而为点云获取逐点标注是耗时且劳动密集的。最近半监督方法通过用教师-学生框架为未标注的点云生成伪标签来缓解这一问题。然而,这些伪标签经常缺乏足够的多样性和较低质量。

为了克服这些障碍,引入一种基于代理的半监督三维物体检测模型(Diff3DETR)。具体来说,设计一个基于代理对象的查询生成器,用于生成能够有效适应动态场景的对象查询,同时在采样位置与内容嵌入之间取得平衡。此外,一个基于框的去噪模块利用了DDIM去噪过程和transformer解码器中的远程注意力,逐步精化边界框。

在ScanNet和SUN RGB-D数据集上进行的广泛实验表明,Diff3DETR优于现有半监督三维物体检测方法。

4、DiffSurf: A Transformer-based Diffusion Model for Generating and Reconstructing 3D Surfaces in Pose

280b7fa83c137c2117032cf1129c4d54.png

本文提出DiffSurf,基于transformer的去噪扩散模型,用于生成和重建三维表面。具体来说,设计了一个扩散transformer架构,用于从嘈杂的三维表面顶点和法线预测噪声。借助这种架构,DiffSurf能够生成各种姿势和形状的三维表面,例如人体、手部、动物和人造物体。

此外,DiffSurf具有通用性,可以解决包括变形、体形变化和将三维人体网格拟合到二维关键点在内的各种三维下游任务。在三维人体模型基准上的实验结果表明,DiffSurf可以生成具有更大多样性和更高质量的形状,优于先前的生成模型。此外,当应用于单图像三维人体网格恢复任务时,DiffSurf以接近实时的速率达到可与先前技术相媲美的精度。https://github.com/yusukey03012/DiffSurf

5、CloudFixer: Test-Time Adaptation for 3D Point Clouds via Diffusion-Guided Geometric Transformation

4155633bff32aa0c9848fb8c6b0d38f2.png

由于各种障碍(如遮挡、有限分辨率和尺度变化)导致的实际传感器捕获的3D点云经常包含嘈杂点。虽然在 2D 领域中的测试时适应(TTA)策略已经在该问题上显示出有希望的结果,但是将这些方法应用于 3D 点云的情况仍未得到充分探讨。

在 TTA 方法中,一种输入适应方法直接将测试实例通过预训练扩散模型转换为源领域,在 2D 领域已被提出。尽管在实际情况下其对 TTA 的性能表现鲁棒,但是简单地将其应用到 3D 领域可能并不是最佳选择,因为忽略了点云的固有特性,以及其高昂的计算成本。

受到这些限制的启发,提出CloudFixer,一种专为 3D 点云量身定制的测试时输入适应方法,采用预训练扩散模型。具体来说,CloudFixer 通过优化几何转换参数,利用点云的几何属性精心设计的目标来提高计算效率。此外,通过避免通过扩散模型进行反向传播和耗时的生成过程,显著提高计算效率。此外,提出了一个在线模型适应策略,通过将原始模型预测与经过调整的输入的预测进行对齐。实验展示 CloudFixer 在各种 TTA 基线上的优越性。https://github.com/shimazing/CloudFixer

6、DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors

b65d400ef9d672f5ff31398f83b0d767.png

最近,文本到三维生成取得显著进展。为增强其在现实应用中的实用性,关键是生成具有相互作用的多个独立对象,类似于2D图像编辑中的图层合成。然而,现有的文本到三维方法在这一任务上存在困难,因为它们旨在生成非独立对象或缺乏空间合理互动的独立对象。

为解决这个问题,提出DreamDissector,一种能够生成具有交互作用的多个独立对象的文本到三维方法。DreamDissector接受一个多对象文本到三维NeRF作为输入,并生成独立的有纹理的网格。为实现这一点,引入神经类别场(NeCF)来解耦输入NeRF。此外,提出Category Score Distillation Sampling (CSDS),通过深度概念挖掘(DCM)模块实现,以解决扩散模型中的概念差距问题。通过利用NeCF和CSDS,可有效从原始场景中导出子NeRF。进一步细化增强几何和纹理。

7、DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation

72accd5e5464f31b189173f8f47c2906.png

用强大的2D扩散模型学习Radiance Fields(NeRF)在文本到3D生成方面变得流行起来。然而,NeRF的隐式3D表示缺乏对网格和表面上的纹理的显式建模,这种表面未定义的方式可能会导致问题,例如具有模糊纹理细节或交叉视图不一致的嘈杂表面。

为缓解这一问题,提出DreamMesh,一种新的文本到3D架构,侧重于定义良好的表面来生成高保真的显式3D模型。在技术上,DreamMesh利用独特的由粗到精的方案。实验证明,DreamMesh在忠实生成具有更丰富文本细节和增强几何的3D内容方面明显优于当前文本到3D方法。https://dreammesh.github.io/

8、JointDreamer: Ensuring Geometry Consistency and Text Congruence in Text-to-3D Generation via Joint Score Distillation

6391103ab60e3e2ca8d7854f12838924.png

经过良好训练的2D扩散模型在文本到三维生成中显示出巨大潜力。然而,这种范式将视角不可知的2D图像分布蒸馏为每个视角独立的3D表示的渲染分布,忽略了视角之间的一致性,导致生成中的3D不一致性。

本文提出Joint Score Distillation (JSD),一个确保一致3D生成的新范式。具体而言,建立了联合图像分布,引入能量函数来捕捉扩散模型中去噪图像之间的一致性。然后,在渲染的多个视角上推导联合分数蒸馏,而不是SDS中的单个视角。此外,实例化了三个通用的视角感知模型作为能量函数,展示了与JSD的兼容性。从经验上看,JSD明显缓解了SDS中的3D不一致性问题,同时保持文本的一致性。

JointDreamer在文本到三维生成中建立了一个新的基准,具有88.5%的CLIP R-Precision和27.7%的CLIP分数。https://jointdreamer.github.io/

9、Length-Aware Motion Synthesis via Latent Diffusion

25ac79539d285235cc22d11c8371a5aa.png

合成人类动作的目标持续时间是一个关键属性,需要对动作动态和风格进行建模控制。加快动作表现并不仅仅是加速它。然而,针对人类行为合成的现有技术在目标序列长度控制上存在局限。

从文本描述生成长度感知的3D人体运动序列的问题,提出一个新的模型来生成可变目标长度的动作,将其称为“Length-Aware Latent Diffusion”(LADiff)。LADiff包括两个新模块:1)一个长度感知变分自编码器,用于学习具有长度相关潜在码的运动表示;2)一个符合长度的潜在扩散模型,用于生成随着所需目标序列长度增加而增加细节丰富度的动作。在HumanML3D和KIT-ML两个建立的动作合成基准上,LADiff在大多数现有动作合成指标上显著优于现有技术。https://github.com/AlessioSam/LADiff

10、Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

860746c994ed77e725ccefc328475a84.png

文本到动作生成,不仅需要将局部动作与语言进行基础接触,还需要无缝地融合这些个别动作来综合多样且逼真的整体动作。然而,现有的动作生成方法主要集中于直接合成全局动作,却忽视了生成和控制局部动作的重要性。

本文提出局部动作引导的动作扩散模型,通过利用局部动作作为细粒度控制信号促进全局动作生成。具体而言,提供一种自动化的参考局部动作采样方法,并利用图注意力网络评估每个局部动作在整体动作合成中的引导权重。在合成全局动作的扩散过程中,计算局部动作梯度以提供条件指导。这种由局部到全局的范式减少了直接全局动作生成所带来的复杂性,并通过采样多样动作作为条件促进动作多样性。

在两个人类动作数据集(HumanML3D 和 KIT)上进行的大量实验表明了我们方法的有效性。此外,方法提供了在无缝组合各种局部动作和连续引导权重调整方面的灵活性,适应了各种用户偏好,可能对社区具有潜在的重要意义。https://jpthu17.github.io/GuidedMotion-project/

11、MonoWAD: Weather-Adaptive Diffusion Model for Robust Monocular 3D Object Detection

693657da46a88ec5de83a5d86b678202.png

单目三维物体检测,是自动驾驶中一项重要而具有挑战性的任务。现有方法主要集中在理想天气条件下进行3D检测,这些情景具有清晰和最佳的可见性。然而,自动驾驶的挑战在于需要处理天气条件的变化,如有雾的天气,而不仅仅是晴天。

引入MonoWAD,一个具有天气自适应扩散模型的新型抗天气单目3D物体检测器。它包含两个组件:(1)天气codebook用于记忆晴天的知识并为任意输入生成一个天气参考特征,以及(2)天气自适应扩散模型,通过整合一个天气参考特征来增强输入特征的表示。这在指示根据天气条件需要对输入特征进行多少改进方面起着注意力作用。为了实现这一目标,引入了天气自适应增强损失,以增强特征在晴天和有雾天气条件下的表示。在各种天气条件下的大量实验表明,MonoWAD实现了抗天气的单目3D物体检测。https://github.com/VisualAIKHU/MonoWAD

12、NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling withDiffusion Model

5f35a0829f2d35ed6b625f3fecb96b32.png

对于调整不准确的手部姿势并生成三维手-物体重建中的新型人类抓取,建模手部与物体之间的物理接触是标准的。然而,现有方法依赖于无法指定或控制的几何约束。本文引入了一种新的可控3D手-物体接触建模任务与自然语言描述。挑战包括:i)从语言到接触的跨模态建模复杂性,以及ii)缺乏用于接触模式的描述性文本。

为解决这些问题,提出NL2Contact,一个通过利用分层扩散模型生成可控接触的模型。给定手部和接触的语言描述,NL2Contact生成逼真和忠实的3D手-物体接触。为训练模型,构建 ContactDescribe,这是第一个带有以手为中心的接触描述的数据集。它包含由基于精心设计的提示(如抓取动作、抓取类型、接触位置、自由手指状态)的大型语言模型生成的多层次且多样化的描述。展示了模型在抓取姿势优化和新型人类抓取生成方面的应用,这两者都基于文本接触描述。

13、NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image

591fd28fb6569749da0ffec0fb78a3e1.png

最近关于单一图像的新视角合成(NVS)已经通过利用预训练文本到图像(T2I)模型的生成能力取得令人印象深刻的结果。然而,先前NVS方法需要额外优化才能使用其他即插即用的图像生成模块,如ControlNet和LoRA,因为它们微调了T2I参数。

本研究提出一个高效的即插即用适配模块 NVS-Adapter,它与现有的即插即用模块兼容而无需进行大量微调。引入目标视图和参考视图对齐,以提高多视角预测的几何一致性。实验结果表明NVS-Adapter与现有即插即用模块兼容。此外,尽管没有对预训练的T2I模型的数十亿参数进行微调,NVS-Adapter在NVS基准测试中表现优越。https://postech-cvlab.github.io/nvsadapter/

14、Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models

f044d6b96a1fa9cf37c82e2b8febebbc.png

这篇论文研究预先在大规模图像-文本对上进行预训练的扩散模型在开放词汇三维语义理解中的使用。提出一种新方法,即 Diff2Scene,利用文本-图像生成模型的冻结表示以及敏锐感知和几何感知蒙版,用于开放词汇三维语义细分和视觉定位任务。

Diff2Scene 摆脱了任何标注的3D数据,并有效识别了三维场景中的对象、外观、材料、位置及其组合。展示它优于竞争基线,并且较现有的方法取得了显著提升。特别是,在 ScanNet200 数据集上,Diff2Scene 将现有方法的准确率提高了12%。

15、Realistic Human Motion Generation with Cross-Diffusion Models

acb3cf55c18fa60e02b10870392059d0.png

这项工作介绍一种基于文本描述生成高质量人类动作的 Cross Human Motion Diffusion Model(CrossDiff3)。方法在扩散模型的训练中使用共享transformer整合了3D和2D信息,将运动噪音统一到一个特征空间中。这使得 CrossDiff 能够将特征解码为3D和2D运动表示,不管它们的原始维度如何。

CrossDiff 的主要优势在于其交叉扩散机制,允许模型在训练期间将2D或3D噪音反转为干净的运动。这种能力利用了两种运动表示中的互补信息,捕捉了仅仅依赖3D信息的模型常常错过的复杂人体运动细节。因此,CrossDiff 有效地结合了这两种表示的优势,生成更加逼真的运动序列。

在实验中,模型展示了竞争性的最先进性能,适用于文本到动作基准。此外,方法始终提供增强的运动生成质量,捕捉复杂全身运动细节。方法还适应使用在野外收集的2D运动数据而不需3D运动地面真相进行训练来生成3D运动,突显了其更广泛应用的潜力以及对现有数据资源的高效利用。https://wonderno.github.io/CrossDiff-webpage/

16、SMooDi: Stylized Motion Diffusion Model

16df43324d98702c95c827730a8e1e1f.png

引入一种新风格化运动扩散模型,名为 SMooDi,用于根据内容文字和风格运动序列生成风格化运动。与现有方法不同,现有方法要么生成多样内容的运动,要么从一个序列转移风格到另一个序列,SMooDi 可以快速地生成跨多样内容和不同风格的运动。

为此,为风格定制了一个预训练文本到动作模型。具体而言,提出风格引导来确保生成的动作与参考风格密切匹配,同时还提出了一个轻量级风格适配器,将运动引导到所需的风格,同时确保逼真性。在各种应用程序中的实验表明,框架在风格化运动生成方面优于现有方法。https://neu-vi.github.io/SMooDi/

17、TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

2c4b9c813aab0a4ac27715df60a5e56d.png

给定3D mesh,如何生成对应文本描述的3D纹理外观?本文提出TexGen,一个全新的多视图抽样和重新抽样框架,用于纹理生成,利用预训练的文本到图像扩散模型。为解决这些问题,提出一种关注引导的多视图抽样策略,以在视图之间广播外观信息。为保留纹理细节,开发一种噪声重新抽样技术,用于估算噪声,生成用于后续去噪步骤的输入,由文本提示和当前纹理地图指导。

通过大量的定性和定量评估,展示了方法为具有高度视图一致性和丰富外观细节的各种3D对象产生了更好的纹理质量,优于当前最先进的方法。此外,提出的纹理生成技术还可以应用于保留原始身份的纹理编辑。https://dong-huo.github.io/TexGen/

18、Connecting Consistency Distillation to Score Distillation for Text-to-3D Generation

d0b4fd1a0424f28413605617283f8966.png尽管最近文本到3D生成的质量已有提高,细节级别问题和低保真度仍然存在,需进一步改进。为理解这些问题本质,通过将一致性蒸馏理论连接到评分蒸馏,对当前的评分蒸馏方法进行了彻底分析。基于通过分析获得的见解,提出一个优化框架,引导一致性抽样(GCS),并结合3DGS以减轻这些问题。

此外,观察到生成的3D资产渲染视图中持续存在的过度饱和现象。通过实验,发现这是由于在优化过程中3DGS中不必要的累积亮度引起的。为减轻这一问题,在3DGS渲染中引入了一种亮度均衡生成(BEG)方案。实验结果表明,方法生成了更多细节和更高保真度的3D资产,优于目前最先进的方法。https://github.com/LMozart/ECCV2024-GCS-BEG

19、TPA3D: Triplane Attention for Fast Text-to-3D Generation

9a9327c28b0ac58d9bbd0622bcfa16cb.png

由于缺乏大规模文本-3D对应数据,最近的文本到3D生成方法主要依赖于利用2D扩散模型合成3D数据。由于基于扩散的方法通常需要大量的优化时间进行训练和推断,因此仍希望使用基于GAN的模型进行快速3D生成。

这项工作提出Triplane Attention用于文本引导的3D生成(TPA3D),一个端到端可训练的基于GAN的深度学习模型,用于快速文本到3D生成。通过训练观察的仅为3D形状数据及其渲染的2D图像,TPA3D旨在检索详细的视觉描述,以合成相应的3D网格数据。这是通过在提取的句子和词级文本特征上提出的注意机制实现的。

实验展示了TPA3D生成与精细描述对齐的高质量3D纹理形状,同时还能观察到令人印象深刻的计算效率。

20、Transferable 3D Adversarial Shape Completion using Diffusion Models

bb73b3c3b60ea3462e609eea10b646f9.png

最近的研究将几何特征和transformers纳入3D点云特征学习中,显著提高3D深度学习模型的性能。然而,它们对抗性攻击的韧性尚未得到彻底探索。现有的攻击方法主要集中在白盒场景,很难迁移到最近提出的3D深度学习模型。更糟糕的是,这些攻击引入了对3D坐标的扰动,生成不太现实的对抗性示例,并导致对3D对抗性防御的性能不佳。

为增强攻击的可转移性,深入研究3D点云的特征并利用模型的不确定性来更好地推断通过对点云进行随机降采样实现模型分类的不确定性。采用集成对抗引导的方法,以改善跨不同网络架构的可转移性。为了保持生成质量,仅针对点云的关键点采用对抗引导,通过计算显著性分数。

大量实验证明,提出的攻击方法在黑盒模型和防御方面优于最先进的对抗攻击方法。黑盒攻击为评估各种3D点云分类模型的韧性建立了一个新的基准。

21、VividDreamer: Invariant Score Distillation For Hyper-Realistic Text-to-3D Generation

375822c113b5d2efe5f73f548b3d94a9.png

本文介绍不变分数蒸馏(ISD),一种用于高保真度文本到3D生成的新方法。ISD旨在解决得分蒸馏抽样(SDS)中的过度饱和和过度平滑问题。通过将SDS拆分为两个组件的加权和以此来解决这些问题。实验发现,过度饱和源于大的无分类器引导比例,过度平滑来自重构项。

为克服这些问题,ISD利用从DDIM抽样中派生的不变分数项来替代SDS中的重构项。这个操作允许利用一个中等的无分类器引导比例,并减轻与重构相关的错误,从而防止结果的过度平滑和过度饱和。

大量实验证明,方法极大地增强了SDS,并通过单阶优化产生了现实的3D物体。https://github.com/SupstarZh/VividDreamer


优质正版图书,专属读者限量链接:

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

如何跟进 AIGC+CV 视觉前沿技术?

CVPR 2024 | diffusion扩散模型梳理!100+论文、40+方向!

ICCV 2023 | diffusion扩散模型方向!百篇论文

CVPR 2023 | 30个方向130篇!最全 AIGC 论文一口读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

442ffe221952be88e2c79438522ee004.png 戳我,查看GAN的系列专辑~!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值