Convolutional Generation of Textured 3D Meshes

最新推荐文章于 2024-08-31 09:42:40 发布

FengF2017

最新推荐文章于 2024-08-31 09:42:40 发布

阅读量1k

点赞数

分类专栏：计算机视觉文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/FengF2017/article/details/113031008

版权

计算机视觉专栏收录该内容

31 篇文章 3 订阅

订阅专栏

论文标题:

Convolutional Generation of Textured 3D Meshes

论文来源:

NeurIPS 2020

论文链接:

https://papers.nips.cc/paper/2020/hash/098d86c982354a96556bd861823ebfbd-Abstract.html

代码来源:

https://github.com/dariopavllo/convmesh

1 引言

在海量图像的驱动下，基于GAN的图像生成模型已经可以获得十分逼真的生成效果，在控制生成图像内容方面，也取得了许多研究进展。由于自然图像是3D物体的2D投影，对于图像中物体的位置、朝向等属性，从3D物体中进行控制相比图像级别的控制有着天然的优势，因此，生成3D物体成为计算机视觉中新的研究方向。现有的3D物体生成的研究中，大多需要3D监督或不同视角下的2D监督，只能使用合成数据或专门制作的多视角数据集，相比海量的单视角自然图像，这类数据的多样性明显不足，使用这类数据训练的模型生成效果并不理想。

2 论文贡献

提出了一种易于使用2D卷积进行生成的mesh表示方式——位移图（displacement map）。
基于位移图，实现了以单视角2D自然图像为监督，训练带有纹理（texture）的mesh生成模型。

3 Mesh及其纹理

Mesh是一种常用的表示3D物体的方式，它由一系列顶点、边和面组成。顶点记录了物体在3D空间中的位置，面通常采用三角形，由3个顶点确定，一系列相互连接的面构成了3D空间中物体的表面。

Mesh的纹理保存在纹理图中，它可以直观地理解为物体表面的展开图。纹理图与mesh之间定义了UV映射，在进行渲染（将3D物体投影为2D图像）时，首先计算图像像素在物体表面的位置，再根据UV映射从纹理图中采样得到颜色。如下图所示。

4 方法

4.1 位移图

在一些从图像重建mesh的工作中，从预定义了面和UV映射的模板mesh出发，通过回归每个顶点的位移构建mesh，将mesh表示简化为顶点的位移。

文章的作者提出，对于每个顶点的位移，使用与纹理相同的UV映射方式，建立一张位移图（displacement map），从位移图中采样得到顶点位移。这种表示方式使得顶点位移可以通过2D卷积的方式来产生，同时，位移图与纹理图在拓扑上是一致的（例如，鸟喙处顶点的位移与纹理分别记录在位移图与纹理图的相同位置），使得网络更容易捕获顶点位置与纹理的对应关系。从位移图构建标准mesh的流程如下图所示。

4.2 数据准备

文章的目的是以单视角下的自然图像作为监督训练mesh生成模型，一个直接的想法是将生成的mesh通过可微分的渲染器渲染为图像，与自然图像一起送入判别器判别。但作者发现这种训练策略会导致训练不稳定，因此采用了直接在位移图与纹理图上进行判别的策略。

为了获得真实的位移图与纹理图，作者按照[1]的自监督训练框架，训练了一个基于位移图的mesh重建模型，用此模型从数据集的图片中提取位移图，作为真实的位移图。Mesh重建模型的结构如下图，需要注意的是，该模型中产生的纹理图仅用于辅助位移图的重建，不用作生成模型的监督。

从自然图像中重建mesh后，将自然图像反向渲染成纹理图，利用可微分渲染器的梯度计算可见性掩模，将反向渲染的纹理图中不可见部分遮去，作为真实的纹理图。

4.3 生成模型框架

使用上节所获得的位移图与纹理图作为监督，带有纹理的mesh生成问题与一般的图像生成问题具有很高的相似性，作者在网络结构设计上直接采用了图像生成中的成熟结构，如DCGAN，多尺度判别器等。为了生成完整的纹理图，生成的纹理图在送入判别器前将加上一个从真实数据中随机采样的可见性掩模，以匹配真实数据的分布。生成模型整体框架如下图，模型设计的更多细节请见论文。

5 实验结果

数据集

CUB-200-2011
Pascal3D+ (P3D)

评价指标

作者使用了3种基于FID的评价指标来验证mesh和纹理的生成效果。

Full FID：生成的mesh与生成的纹理渲染得到的图像，与真实图像之间的FID
Texture FID：图像中重建的mesh与生成的纹理渲染得到的图像，与真实图像之间的FID
Mesh FID：生成的mesh与反向渲染得到的纹理渲染得到的图像，与真实图像之间的FID

实验设置

作者在CUB数据集中，分别训练了无条件的mesh生成模型和以类别、文本为条件的生成模型。在P3D数据集中，分别训练了无条件的和以类别、颜色为条件的生成模型。

数值结果

不同实验设置下的生成效果对比如下

生成效果展示

6 总结

这篇文章实现了以自然图像为监督，训练带有纹理的mesh生成模型。作者巧妙地使用了位移图，实现了mesh与纹理在2D空间中的统一表示，并通过对自然图像进行合理的变换，获得所需的监督信息，最终成功地把mesh生成问题转化为与图像生成类似的问题，利用图像生成中成熟的模型结构，实现了对mesh与纹理的同时生成。这篇文章的美中不足之处在于，文中没有与发表在CVPR2020的文章[2]进行对比，尽管截止这篇文章投稿，[2]还未开源代码，笔者认为至少应进行数值指标上的比较。

参考文献

[1] A. Kanazawa, S. Tulsiani, A. A. Efros, and J. Malik. Learning category-specific mesh reconstruction from image collections. In European Conference on Computer Vision (ECCV), 2018.

[2] P. Henderson, V. Tsiminaki, and C. H. Lampert. Leveraging 2d data to learn textured 3d mesh generation.
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.