Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images. 由双面图像的定制驱动的3D物体编辑和生成

Tailor3D是一个快速的3D物体编辑框架。通过结合2D图像编辑和快速3D重建技术,它显著提升了3D物体编辑的效率。
在这里插入图片描述

1. Introduction

2D生成:已可实现编辑,3D生成:不可编辑且可控性差。
近年来,像Stable Diffusion [1] 和 ControlNet [2] 这样的技术革新了2D AI生成内容(AIGC),使得文本到图像合成、图像编辑和风格迁移变得更加便捷和高效。同时,3D AIGC的潜力也被认可,通过整合文本和图像,直接生成3D对象,大大降低了成本本。尽管text-to-3D和image-to-3D的质量越来越高,但是可控的3D物体的生成,以及对于3D物体的编辑仍然较少。利用大规模3D资产数据集和Transformer模型得到了Large Reconstruction Model能够实现图片到3D重建。因此我们提出一种3D物体定制和编辑的新范式,即首先在2D上进行生成和编辑工作,再使用Feed-Forward框架重建得到3D物体。

3D生成中的Feed-Forward方法和为什么选择前后两个视角。
针对3D生成,早期的基于优化的方法使用多视图稳定扩散,生成细粒度对象,但速度较慢,需耗时数分钟到数小时。而利用大规模3D资产数据集和Transformer模型的Feed-Forward方法,现在可以在几秒钟内创建高质量的3D物体。其中LRM是从单张图片直接生成3D物体,但是单张图片只能看到物体的正面,从而缺失背面的信息。而现有的多视角3D生成方法通常是使用正面图片作为condition,利用Multi-view Diffusion生成出前后左右四个视角(有时是6个视角),在基于该四个视角进行快速重建得到3D物体。但是增加视角数量捕捉更多视觉信息,但也增加了编辑复杂性。因此,我们选择前后两个视角。这是由于前后两个视角有着较小的overlap,便于实现图片的多视角编辑。并且绝大多数的物体,使用前后两个视角便能够重建出大部分信息完整的3D物体。

Tailor3D:Pipeline
Tailor3D是高效且用户友好的3D快速编辑框架。该框架将生成和编辑任务委托给2D图像编辑技术,并通过快速3D重建生成3D对象,使用户可以迭代地完善所需的3D对象。过程如图1所示:用户从前视图图像开始编辑(例如添加太空眼镜和仪表盘),然后通过多视图扩散技术生成后视图,再编辑后视图(如添加背包)。最终,将编辑后的前后视图图像输入双面LRM模型,生成3D模型。整个过程允许逐步编辑,每一步在几秒钟内完成,提供极大的便利和精确控制,并允许对最终3D对象进行详细定制。

在这里插入图片描述

2. Related Work

本节我们主要介绍一下Feed-Forward方法3D重建方法即LRM系列进行一个介绍。也在详细介绍我们的方法与其不同之处。首先,Feed-Forward的方法是与Optimized-based方法相对应的。3D重建如NeRF和早期3D生成例如Dreamfusion都是逐个对物体进行优化,这大约需要几分钟到几个小时。而Feed-Forward方法指的是在大规模3D数据集上训练之后,通用性的重建方法。可以在几秒钟迅速从单张或者固定稀疏视图得到3D物体。

  • Large Reconstruction Model (LRM).
    其完成的任务是从single image-to-3D。即单张图片的image feature和triplane的position embeds进行corss-attention得到Triplane NeRF从而进行重建。

  • Instant3D (Multi-view LRM).
    需要注意的是,原本Instant3D应该是前后左右四张图片,但是这里为了简化表示,我们使用前后两张图片来表示其如何将多视角图片特征进行融合。这里MV-LRM的框架与LRM截然不同。相机参数是融合在了image backbone中,而不是在image-to-triplane的transformer中。在得道各个视角的image feature之后,在2D层面上进行concat之后得到的综合特征再进行和position embeds进行corss-attention

  • Tailor3D(Fuse different views in the 3D level.
    Tailor3D希望仅仅在LRM的基础之上通过简单的finetune从而得到由前后两张图片重建得到的3D物体。前后两张图片通过image encoder得到FV & BV iamge feature。我们这是让其分别通过image-to-triplane并且均使用正面相机视角参数得到FV & BV triplane feature。我们通过旋转triplane并且使用Viewpoint Cross-Attention得到最终的triplane NeRF feature。

在这里插入图片描述

3. Methodology

3.1 Pipeline

Tailor3D的pipeline首先是2D图片的编辑,后视图的生成和3D的重建。假设我们现在有一张物体的前视图或者是我们使用text-to-iamge工具 (e.g. Stable Diffusion, Midjourney) 生成了一张物体的前视图。后面的具体的步骤和每一步用到的工具如下

  • 前视图的编辑:我们可以使用Adobe Express来改变图片的局部。比如给人戴一个眼镜,让kunkun玩偶的另一只手拿一张律师函。我们也可以进行风格的迁移,我们可以使用ControlNet来输入我们想变换的风格进行变换。而使用InstantStyle能够输入参考风格图片,让前视图改成参考图片的风格 [3]。

  • Multi-view Diffusion生成后视图.
    当我们编辑好前视图之后,我们可以使用Multi-view Diffusion生成背面的视图,当然这里背面的图片也可以由用户提供。这里我们使用Stable Zero123这种3D-aware diffusion可以生成背面视角。

  • 后视图的编辑:这里的编辑和前视图的编辑一样,但是一般来说除了是将两种不同的风格融合在一个物体上,一般不在后视图上再次进行风格迁移。

  • 快速的双面3D重建:将编辑好的前后视图通过Dual-sided LRM进行快速重建,得到最终的3D物体。

3.2 Dual-sided LRM: How to Accept Imperfect Consistent Views

如前所述,我们希望在不改变LRM [4]结构的情况下,通过简单finetue能够是的LRM适用于接受双图的输入。同样,我们不希望像Instant3D一样在2D图片层面上将多视角的特征进行融合。我们更加希望能够在3D triplane层面上显式的进行多视角特征的融合。因此我们提出了Dual-sided LRM,其结构如下

在这里插入图片描述

  • Step 1:我们使用相同的图像编码器(DINO-v2)获取前视图和后视图的图像特征。
  • Step 2:这两个图像特征分别通过LoRA三平面Transformer处理,但共享相同的前视图相机外参
  • Step 3:在获得两个三平面后,我们通过旋转和Viewpoint Cross-Attention缝合这两个三平面特征,以获得3D对象。

我们的Tailor3D有两重意思,一个是指可以像裁缝一样能够去编辑3D的物体。另一个是指的是这里的Viewpoint Cross-Attention能够将正面和反面的特征缝合在一起、

4. Experiments

这里我们首先介绍一下我们训练的数据集Gobjaverse-LVIS,然后介绍一下我们的下游任务。

4.1 Dataset: Gobjaverse-LVIS

LRM是使用Objaverse数据集进行训练的,这是一个大型的3D物体级别数据集。含有大约80W个物体。每个物体是随机渲染了100个视角,在训练的过程中是随机选取其中的某些视角。

而针对于Tailor3D,我们的输入需要是前后一对图片。这里我们采用Gobjaverse数据集 [5]。这是一个基于Objaverse的物体进行进一步精细化渲染的数据集。这里的渲染方式有所不同,这里是采用等间隔的渲染两圈。并且包含顶部和底部两个视角。值得注意的是,Gobjaverse仅仅只包含28W个物体。而我们使用的是Gobjaverse和LVIS的交集即Gobjaverse-LVIS,只包含了2.2W个物体。

数据集物体数量渲染方式
Objaverse80W100个随机视角
Gobjaverse28W两圈环绕的视角
Gobjaverse-LVIS21,436和Gobjaverse相同

在这里插入图片描述

4.2 Tailor3D Applications

在这里插入图片描述

3D Generative Geometry / Pattern Fill(3D生成性几何/图案局部填充)

所谓局部填充指的是我们在物体钱后视图编辑的时候,我们这时候可以使用Adobe Express来去对图片的集合结构和其中的图案进行生成式的填充。比如说我们针对一个空白的house房屋,我们可以添加栏杆,阳台等包含有几何结构的改变。包括我们可以从一个盔甲得到一个穿着披风的将军。而Pattern Fill指的是图案的局部填充,我们可以针对物体的空白部分添加一些图案。

3D Style Transfer/Fusion (3D风格迁移/融合)

这里主要指的是在进行前视图编辑的时候,采用风格迁移的工具进行风格迁移,这样最终得到的3D物体也是会符合我们想要的风格。这里其中最有用的是进行3D IP的定制,例如图中的lego乐高,我们可以保持都是一个模型然后生成出不同款式的lego模型。

而如果单独对后视图进行风格迁移。这样的话正面和背面的风格是不同的,这是就是风格融合。例如图中的鸟,我们可以让其正面和背面有着不同的风格。

下面我们展现更多的例子。
在这里插入图片描述

Reference

[1] High-Resolution Image Synthesis with Latent Diffusion Models, 2023.

[2] Adding Conditional Control to Text-to-Image Diffusion Models, 2023.

[3] InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation, 2024.

[4] LRM: Large Reconstruction Model for Single Image to 3D, 2023.

[5] G-buffer Objaverse: High-Quality Rendering Dataset of Objaverse, 2023.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值