关注公众号,发现CV技术之美
在 ICLR2024 上,由南洋理工大学-商汤联合研究中心 S-Lab,香港中文大学,及上海人工智能实验室等合作提出了一种基于扩散模型的大量类别 3D 物体生成框架(Large-Vocabulary 3D Diffusion Model with Transformer
),克服了三个主要挑战:
a)3D 生成需要高效且表达力强的 3D 表示,
b)3D 物体拥有丰富多样的几何及纹理信息,
c)真实 3D 物体拥有复杂的外观。
本文提出了一种新的基于改进的三平面(triplane)和 Transformer 的 3D 感知扩散模型,DiffTF。
提高了三平面表征的拟合速度和准确性;
3D 感知的TransFormer能够处理跨平面的交叉关系,聚合通用 3D 知识和专用 3D 特征;
设计了3D感知的编码器/解码器来增强编码的三平面中的通用3D知识,以处理具有复杂外观的类别。
本文在ShapeNet和OmniObject3D(超过200个多样化真实世界类别)上的实验证明了DiffTF能够实现具有高度多样性、丰富语义和高质量的大词汇量3D物体生成。
![a0517bf2cb9fe039ceee8c65364dc2c6.png](https://i-blog.csdnimg.cn/blog_migrate/23fe2d45f5d2a3b2ce50493cbb83f3eb.png)
作者:Ziang Cao, Fangzhou Hong, Tong Wu, Liang Pan, Ziwei Liu
作者机构:南洋理工大学, 香港中文大学,上海人工智能实验室
论文链接:https://arxiv.org/abs/2309.07920
项目主页:https://ziangcao0312.github.io/difftf_pages/
GitHub代码:https://github.com/ziangcao0312/DiffTF
1 问题和挑战
在游戏、机器人和建筑设计等应用中,大量高质量的3D资产是极其匮乏的资源。最近通过Diffusion模型生成3D物体的研究已经取得了不错的进展,然而大多数工作仍然只能在某一个或少数类别上效果还不错,无法扩展到大量的类别上。这就引出了本文的研究重点:生成高质量大量类别的3D物体。
首先,本文认为大词汇量3D物体生成面临如下几个挑战:
a) 需要表达力强且高效的3D表示;
b) 大量类别的多样性;
c) 真实世界物体外观的复杂性。
对于3D表示,显式表示易于评估但计算量大,隐式表示易扩展但评估很耗时。因此作者在本文采用一种混合的3D表示,三平面特征(Triplane feature)。此外,在3D物体生成领域,扩散模型由于SOTA的效果受到了很大关注,因此本文尝试用单个扩散模型来做大词汇量3D物体生成。
2 方法介绍
为了回答前文所提出的问题并解决这些挑战,本文主要从3D表示和模型架构方面提出了一种解决方案。所提出的DiffTF的方法流程如下图所示。
![6aedb4d9b66142054af95200187e66c1.png](https://i-blog.csdnimg.cn/blog_migrate/c6df1f1ca8c239b7f8f215ba11a2809b.png)
DiffTF整体流程图:1)训练共享权重解码器并拟合三平面特征;2)使用经过训练的三平面优化3D感知Transformer扩散模型。
2.1 3D表征 Triplane 拟合
正如前文所述,Triplane这种三平面的混合表示可以同时满足表达力强和高效的要求。Triplane表示由3个三个轴对齐的正交特征平面,记为, 以及一个用于从平面中解析采样特征的MLP解码器构成。将3D坐标投影到Triplane,可以通过双线性插值查询出任何3D点对应的特征。给定位置和方向,视角依赖的颜色和密度可被表示为:
![53f3d2cf95747c1dd6eaf01c36006556.png](https://i-blog.csdnimg.cn/blog_migrate/132230a103ed8ece0dabbdee05028543.png)
其中表示位置编码。由于拟合的三平面是扩散模型的输入,各种各样的现实世界的物体的三平面需要在同一个空间。因此,我们需要训练一个鲁棒的类别无关的共享编码器。此外,为了约束三平面的值,本文采用强L2正则和TVloss正则:
![202c04494a2a504e4f2f7da6a7038638.png](https://i-blog.csdnimg.cn/blog_migrate/13d15040594f6cd0b902f5303c803649.png)
此外,为了进一步加快三平面拟合的速度,仅从前景点采样。为了避免背景RGB预测效果不佳的问题,设定了一个阈值来控制只从前景采样还是从整幅图像采样的比例。此外,本文还引入了一个前景-背景掩码。因此,三平面拟合的训练目标为:
![7a588a7b64c518f0adbb60828c8fbf55.png](https://i-blog.csdnimg.cn/blog_migrate/4cf43731c276dd4af0b7478b20a1a900.png)
2.2 基于Transformer的具有3D感知的扩散模型
2.2.1 3D感知编码器/解码器
一般来说,低分辨率的特征有更丰富的语义特征且更鲁棒,而高分辨率的特征对于捕捉细节更有利。因此为了增强三平面中的3D信息,避免3D感知Transformer中的计算密集型操作,本文提出一种新的3D感知的编码器/解码器,用于将原始三平面特征编码为具有3D感知能力的。
为避免在编码解码器中引入计算密集操作,采用单个卷积将特征分辨率降低。注意由于三平面特征具有3D关系,卷积需要分别在每个平面中进行。另外考虑到不同类别的三平面在特征空间中可能存在差异,受DiT [1]的启发,本文通过自适应层归一化(adaLN)引入条件信息。
最终为了在不同的平面上提取通用的3D知识,本文引入了交叉平面注意力,其细节如下图所示。
![d72fe34287213e64148f4fefb91b35bb.png](https://i-blog.csdnimg.cn/blog_migrate/4c7b8d2a5ecc0d99d71ecd887c2b08e1.png)
2.2.2 3D感知Transformer
得益于 3D 感知Transformer编码器,在编码的高层级特征中增强了 3D 相关信息。为了提取全局通用3D知识,并进一步将其与专门的特征聚合,本文构建了3D感知的Transformer。它由自平面和跨平面注意力组成。前者旨在增强单个平面的专门信息,而后者专注于跨不同平面构建通用的 3D 先验知识。
结构如下图所示:
![3c468dfc719425c9b20f127310b0319a.png](https://i-blog.csdnimg.cn/blog_migrate/ac3fccfeb59fc9bc1c21570344840b0b.png)
与 3D 感知编码器类似,本文采用补丁化模块和可学习的位置嵌入。具体来说,左分支中的自注意力模块可以在单个平面内部建立相互依赖关系。通过利用不同平面中的 2D 高级特征,本文的Transformer将利用丰富的语义信息。右分支侧重于提取不同平面的全局 3D 关系。类似地,为了增强每个平面的显式 2D 特征,我们在跨平面注意力之前采用了一个额外的自注意力模块。同时,为了避免过拟合带来的负面影响,本文引入了残差连接。
3 实验
数据集
本文实验主要在ShapeNet和OmniObject3D两个数据集上进行。其中ShapeNet的实验包括Chair, Airplane, Car三个类别,分别有6770,4045,3514个物体。OmniObject3D主要用于评估大词汇量3D物体生成,该数据集包含大词汇量的真实扫描3D物体,用216个具有挑战性的类别,3D物体质量高且几何形状复杂,例如玩具、水果、蔬菜和艺术雕塑等类别。
评估准则
2D评估准则:
Fr ́echet Inception Distance (FID-50k)
Kernel Inception Distance (KID-50k)
3D评估准则:
Coverage Score (COV)
基于Chamfer Distance (CD)的Minimum Matching Distance (MMD)
2D准则在128x128的分辨率下进行评估,3D评估随机采样1024个点进行评估。
3.2 与SOTA方法对比
DiffTF在ShapeNet上的单类别生成和在OmniObject3D上的大词汇量3D生成都超过了现有的SOTA方法,即NFD[2],EG3D[3],GET3D[4]。
ShapeNet上无条件生成的定量比较如下表所示,DiffTF在单类别生成方面超过了现有的方法。
![e64fc12c3829a8598a74c05e21799306.png](https://i-blog.csdnimg.cn/blog_migrate/9b5ebddfd57c869bb3825011116ec2e2.png)
ShapeNet上的可视化结果对比如下图所示,DiffTF在生成细节上具有明显优势。
![f6e46b327b2a79a5f2a96ac3654123dc.png](https://i-blog.csdnimg.cn/blog_migrate/a7b8c4ab3141f4c6f130e07e6d0d2b8b.png)
OmniObject3D数据集上条件生成的定量比较,如下表所示。可以看到DiffTF在2D和3D指标方面明显优于其他SOTA方法。
![ff9a8f2ccdaa2bd4a2034bea65cab476.png](https://i-blog.csdnimg.cn/blog_migrate/313c22eb28794f1df98d1de41978220e.png)
OmniObject3D上的可视化结果对比如下图所示,DiffTF可以生成具有丰富语义信息的3D物体,易于与真实世界3D物体进行对应。
3.3 消融实验
另外本文在OmniObject3D上展示了消融实验。TP Regu 和 TP Norm 表示三平面正则化和三平面归一化。此外,将编码器、原始Transformer和本文的3D感知Transformer中提出的跨平面注意表示为CP、Ori-TF和CP-TF。从实验结果可以看到本文提出的各个模块的有效性。
![c41b6bdf17b9309d2802b7b45d5e6d4a.png](https://i-blog.csdnimg.cn/blog_migrate/f871519dc4411ddf3135044fbdd7eb2d.png)
下图展示了不同结构模型生成3D物体的可视化对比的效果,可以直观证明本文所提出方法的有效性,更多可视化见本文补充材料。
![7bec61f8604a563596c744bfb4faa63d.png](https://i-blog.csdnimg.cn/blog_migrate/d62d2bc0b95f51011e027a1b68573921.png)
3.4 更多实验
同时本文进行了最近邻相关实验,证明了DiffTF具有不俗的生成能力。
![0ce9d1392c79f49d1d16485b27e0be41.png](https://i-blog.csdnimg.cn/blog_migrate/68a4ee8cf43f42ca1499074940154f5e.png)
4 总结
为了将之前的在单个类别上优化模型的工作扩展到大词汇量的3D物体生成,本文提出了一种新的基于三平面的3D感知扩散框架DiffTF。它由两个 3D 感知模块组成:
3D 感知编码器/解码器;
3D 感知Transformer。
基于提取的通用和特殊的 3D 先验知识,DiffTF 可以生成具有丰富语义的各种高质量 3D 物体。并且在ShapeNet和OmniObject3D上与SOTA 方法的对比验证了DiffTF的良好性能。作者希望本文可以为大词汇量 3D 生成提供一些有价值的见解。
参考文献
[1] Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4195-4205.
[2] Shue J R, Chan E R, Po R, et al. 3d neural field generation using triplane diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 20875-20886.
[3] Chan E R, Lin C Z, Chan M A, et al. Efficient geometry-aware 3D generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16123-16133.
[4] Gao J, Shen T, Wang Z, et al. Get3d: A generative model of high quality 3d textured shapes learned from images[J]. Advances In Neural Information Processing Systems, 2022, 35: 31841-31854.
END
欢迎加入「三维重建」交流群👇备注:3D