3D版“裁缝“开源来袭！Tailor3D:自定义3D编辑和资产生成（港大&上海AI-Lab&港中文）-CSDN博客

本文链接：https://blog.csdn.net/AIGCer/article/details/140341736

文章链接：https://arxiv.org/pdf/2407.06191
github链接：https://tailor3d-2024.github.io/
Huggingface:https://huggingface.co/spaces/alexzyqi/Tailor3D

亮点直击：

提出了Tailor3D，一种快速的3D编辑pipeline。通过结合2D图像编辑和快速3D重建技术，它显著提高了3D对象编辑的效率。

双面LRM结合了LoRA Triplane Transformer，有效处理了前后视图之间的不一致性，提升了整体重建质量。

Tailor3D在各种3D编辑和定制任务中表现出色，特别是在局部3D生成填充、整体风格迁移和对象风格融合方面，展示了极大的实用价值。

3D AIGC（人工智能生成内容）的最新进展展示了直接从文本和图像创建3D对象的潜力，在动画和产品设计中带来了显著的成本节约。然而，详细编辑和定制3D资产仍然是一个长期存在的挑战。具体来说，3D生成方法在遵循精细的指令方面还无法像2D图像生成那样精确。想象一下，你可以通过3D AIGC得到一个玩具，但其配件和装饰可能不符合你的期望。为了解决这个问题，本文提出了一种名为Tailor3D的新型pipeline，可以迅速从可编辑的双面图像中创建定制的3D资产。本文的目标是模仿裁缝的能力，能够局部改变对象或执行整体风格迁移。与从多个视角创建3D资产不同，使用双面图像消除了编辑单个视角时出现的重叠区域冲突。

具体而言，它首先编辑正视图，然后通过多视图扩散生成对象的背视图。之后，再编辑背视图。最后，提出了一种双面LRM，用于无缝地将前后3D特征拼接在一起，就像裁缝将衣服的前后部分缝合在一起。双面LRM修正了前后视图之间的不完美一致性，增强了编辑能力，减少了内存负担，同时通过LoRA Triplane Transformer将它们无缝集成到统一的3D表示中。实验结果表明，Tailor3D在各种3D生成和编辑任务中都有效，包括3D生成填充和风格迁移。它提供了一种用户友好且高效的3D资产编辑解决方案，每一步编辑只需几秒钟即可完成。

方法

本节介绍Tailor3D的pipeline和模型架构。首先，介绍大规模重建模型（LRM）和多视图扩散。接下来，概述了Tailor3D的过程，展示了2D编辑和快速重建3D对象的方法。再深入探讨了双面LRM，解释如何处理输入的前后视图不完全一致的问题。还解释了LoRA Triplane Transformer如何减少内存使用以及视点交叉注意力如何融合前后视图的3D三平面。

初步

大规模重建模型（LRM）。LRM实现了直接从单视图到3D的重建。输入图像通过图像编码器进行编码，生成补丁特征标记，其中是图像特征补丁的数量，是图像编码器的维度。三平面的初始可学习位置embeddings定义为，并与图像特征进行交叉注意力。这些嵌入由相应的相机外部参数调制，以生成三平面特征图。

这里，，其中是 Transformer 解码器的隐藏维度。TRI-FORMER 结合了自注意力、交叉注意力和调制。生成的三平面特征图包含三个平面：、和。通过反卷积层，分辨率从 32×32 增加到 64×64。最后，它经过在 NeRF 渲染中进行颜色和密度推导。

2D 和多视图扩散。扩散模型通过T步逐步对纯噪声去噪，以产生干净的数据，并朝着数据对数概率分布的梯度方向优化。在第 t 步，给定噪声输入，带有参数的神经网络预测噪声。

多视图扩散基于当前和所需的视点从特定对象生成图像。通过提供当前图像、外部相机参数，以及期望的相机参数，多视图扩散生成期望视点的图像。在pipeline中，利用多视图扩散根据前视图生成背视图。

Tailor3D的pipeline

本节概述了Tailor3D的pipeline，如下图1下部所示。

它始于对象的前视图图像。最初，应用图像编辑和风格迁移以创建。接下来，像Zero-1-to-3 这样的多视图扩散方法生成相应的背视图，然后对其进行编辑以获得。最后，将和输入到双面LRM中，以获得最终的3D对象。Tailor3D提供了各种选择和潜在的变体。原始图像和可以直接输入到双面LRM中以快速重建3D对象。此外，背视图可以通过Zero-1-to-3生成，也可以通过摄影或直接提供生成。将在实验部分进一步详细说明下游任务。Tailor3D的灵活性源于每一步改进的选择和本文的模型双面LRM在处理前后视图输入不完全一致性方面的稳健性。

双面LRM：如何接受不完全一致的视图

前面的重点是获取对象的编辑过的前视图和背视图。然而，这些图像可能表现出不完全一致性：它们可能不是直接面向对象，其关系可能各异。因此，需要一个能够处理来自两个视图的不完全一致输入图像的重建模型，以生成3D对象。研究者们选择两个视图而不是四个，以减少编辑和重建的一致性压力。在3D域中显式合并两个三平面特征，旨在直观地解决一致性问题。

LoRA三平面Transformer。在使用预训练的LRM参数时，目标是最小化内存使用。在LRM中，单视图特征由三平面Transformer作为解码器处理，以生成三平面NeRF特征。该组件有助于从单视图到3D的映射，使模型能够有效理解各种对象形状并推断对象信息。为了最小化内存使用，将LoRA结构集成到三平面Transformer中，如下图3所示。

对于自注意力，qkv由共享线性层生成，将所有输入和输出线性层替换为LoRA结构。对于交叉注意力，qkv由不同的线性层生成，将所有qkv和输出线性层替换为LoRA结构。具体细节如下。

这里，i表示第i个Transformer层。对于自注意力，tp表示输入和输出的线性投影。对于交叉注意力，tp表示q、k、v和输出的线性投影。

如下图2所示，LRM从特征和相机参数生成前视图的三平面特征。

类似地，对于背视图特征，使用前视图的相机参数，通过LoRA三平面Transformer获得背视图的三平面特征，其表示如下：

这里，使用前视图的相机参数获得的背视图的三平面特征不能直接与合并。

融合双面特征。为了合并两个三平面特征和，首先将围绕z轴水平翻转180度以获得。由于前后视图之间的不一致性，三平面特征不能直接对齐或相加。利用三平面表示，对每个平面单独应用视点交叉注意力。使用作为查询，作为键和值，以整合背面缺失的信息。采用基于窗口的注意力结构，窗口大小设置为7，显著减少了内存消耗。这产生了最终的，包含了来自两视图的信息。数据增强进一步增强了对不一致性的鲁棒性，背视图图像进行缩放、旋转和平移，每种操作都有10%的概率。

最后，三平面NeRF公式利用推导NeRF颜色和密度参数进行体渲染。监督包括V个视图，包含前视图、背视图和（V-2）个随机选择的侧视图。对于特定视图v，合成预测和新视图合成的真实值的损失函数公式如下：

表示归一化的逐像素L2损失，是感知图像patches相似度。是总变差损失，用于防止图像中的噪声。权重系数、、被应用。

实验

数据集：Gobjaverse-LVIS

LRM的预训练权重在Objaverse和 MVImgNet数据集上训练，包含73万个对象，标准化为大小为的立方体，并从32个随机视点以512×512像素的分辨率渲染。对于微调，Gobjaverse-LVIS数据集包括从G-buffer Objaverse和LVIS数据集中选出的2.2万个高质量3D渲染对象。Gobjaverse包含28万个从各种视点捕获的3D对象。在训练过程中，使用匹配的前后视图，具有相同的仰角。渲染监督包括固定的前后视点，以及(V-2)个随机选择的侧视图，用于新视图合成。合并的Gobjaverse-LVIS数据集包含2.2万个对象，确保更高质量。

实现细节

使用预训练的LRM模型的网络架构。图像编码器基于DINOv2的ViT-B/16模型，以384×384的分辨率运行。图像特征的维度为768。三平面Transformer解码器由16层组成，具有16个Transformer头，位置embeddings的维度为1024，三平面的维度为80。由10层组成。将LoRA三平面Transformer的LoRA等级设置为4。在神经渲染过程中，沿每条光线采样128个点，并以128×128的分辨率生成图像。对于相机归一化，遵循LRM标准，将相机相对于对象中心的位置设置为[0,−2,0]。这确保了对象的z轴向上，前视图对应于负y轴。外部渲染参数相对于参考视图进行归一化。在8个A100 GPU上训练10个周期，批量大小为16，耗时约6小时。损失函数系数为。使用AdamW优化器，学习率为，并采用余弦调度。在推理过程中，从重建的三平面NeRF中查询384×384×384点的分辨率，完成时间少于5秒。

实验结果

实验展示了Tailor3D在3D生成方面的能力，包括几何对象填充、纹理合成和风格迁移。后面将本文的方法与现有技术进行了比较。并进行了消融实验，以验证Tailor3D的每个模块。

Tailor3D应用

展示了其在3D生成几何/图案填充方面的多功能性，涵盖局部几何形状和纹理图案填充。突出了其风格迁移和融合能力，允许进行如风格转移和将两种风格融合到一个对象上的操作。Tailor3D使用户能够编辑对象的正面和背面，扩展了定制3D对象的编辑可能性。

3D生成几何/图案填充。在这里，展示了Tailor3D的局部3D对象填充能力，如下图4所示。通过文本或图像提示逐步展示对象填充和编辑。在第2行，从盔甲开始，通过逐步添加头部、手和斗篷生成了一个中世纪将军。第3行展示了其他对象的操作，包括添加邮箱、气球、花丛和篮球框。

3D风格迁移和融合。Tailor3D还展示了其对各种风格的转移和融合能力。与以往的方法不同，Tailor3D确保了知识产权的完整性，同时提供了通过图像或文本指导指定风格的灵活性。特别是，它利用Midjourney进行2D图像生成和编辑。此外，Tailor3D能够将不同的风格注入到对象的正面和背面，展示了双面LRM的融合能力的有效性。

与现有的3D图像到3D生成方法的比较

将本文的方法与Wonder3D、TriplaneGaussian和 LGM在由Stable Diffusion生成的100张图像的测试集上进行了比较。下图5中的定性结果展示了Tailor3D利用双面LRM增强背面信息的能力。

Wonder3D和TriplaneGaussian在处理复杂对象时表现不佳，整体质量较低。使用高斯表示的LGM存在重影效应，并且在树叶等特征上缺乏细节。下表1中提供了定量结果以及生成时间，突显了本文方法的实用价值。

消融研究

对双面LRM进行了消融研究，重点关注三个方面：双面3D特征的融合、LoRA Transformer的等级，以及前后图像的外部相机参数。结果如下表2所示。

双面特征融合方法。使用视点交叉注意力来融合前后两面的特征。此外，尝试使用多层2D卷积层和直接相加来融合双面的三平面特征。结果表明，使用视点交叉注意力产生了最佳效果。

LoRA三平面Transformer的等级。对LoRA三平面Transformer的等级进行了消融实验，分别设置为2、4和8。实验结果表明，等级为4时性能最佳。

外部相机参数。将相同的前视图相机参数应用于前后图像，仅旋转背面的三平面。此外，还尝试了前后图像使用不同的相机参数而不旋转，分别使用前后相机外参，记为和。结果表明，仅使用前视图外参可以获得准确的结果，因为LRM结构仅接受前视图相机参数。

限制与结论

本文介绍了Tailor3D，这是一种通过可编辑的双面图像快速创建定制3D资产的方法，类似于裁缝的工作方式。通过利用2D图像编辑技术和快速3D重建，Tailor3D允许用户对对象进行迭代性地调整。双面LRM和LoRA三平面Transformer充当“裁缝”，无缝地将前后视图结合起来，处理不一致性并提高重建质量。实验结果验证了Tailor3D在3D生成填充和风格定制等任务中的有效性。它提供了一个用户友好、成本高效的解决方案，用于快速的3D编辑，适用于动画、游戏开发等领域，简化了生产过程并使内容创作更加普及。

限制与未来方向 然而，仅依赖前后视图进行物体重建可能会遇到某些厚度的物体带来的挑战。此外，生成的3D物体网格可能具有较低的分辨率，添加的几何特征可能对网格的变化不大。将在未来的工作中进一步研究解决厚侧轮廓物体的生成与重建问题的方法，旨在提高网格的质量和分辨率。