点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
项目网址:http://hiroharu-kato.com/projects_en/neural_renderer.html 代码网址:https://github.com/hiroharu-kato/neural_renderer 论文名称:Neural 3D Mesh Renderer(CVPR2018) 概述 对于二维图像背后的三维世界建模,哪一种三维表示最合适?现在常见的表示方法有点云、体素和网格,其中多边形网格具有良好的紧致性和几何性质。但是使用神经网络直接由多边形网格生成图像比较困难,因为光栅化的过程阻止了反向传播。因此,作者提出了一个近似的梯度栅格化,使渲染集成到神经网络。 使用这个渲染器,可以执行带有轮廓图像监督的单图像三维网格重建,并且该系统比现有的基于体素的方法更好。此外,作者还首次在 2D 监督下执行基于梯度的 3D 网格编辑操作,如 2D 到 3D 风格迁移和 3D DeepDream 。 简介 从二维图像理解三维世界是计算机视觉的基本问题之一。人类在大脑中使用视网膜上的图像来模拟 3D 世界,机器也可以通过在 2D 图像背后显式地建模 3D 世界来更智能地工作。从 3D 世界生成图像的过程叫做渲染,这在计算机视觉里面非常重要。 哪种 3D 表示方法是最适合建模 3D 世界?通常有体素、点云和多边形网格。体素难以生成高质量的体素,因为他们是在三维空间有规律地进行采样,并且记忆效率比较低。点云存在纹理和照明难以应用的问题,因为点云没有表面。多边形网格由一系列顶点和表面组成,因此它们是可伸缩的,并且有面,进而作者采用了这种方式。 使用网格这种表示方式有两个好处,第一个是表示三维模型时,需要的参数少,模型和数据集也相应比较小。 第二个就是它适合几何变换。 对象的旋转、平移和缩放由顶点上的简单操作表示。 这篇文章提出了两个应用,如下图所示。第一个是单图像三维网格重建,第二个是基于梯度的 3D 网格编辑,包括风格迁移和 DeepDream 。 这篇论文主要有三个方面的贡献: 1.提出了一个近似的梯度网格渲染,使渲染集成到神经网络; 2.实现了从单图像实现三维网格重建,并且没有3D监督; 3.实现了基于梯度的三维网格编辑操作,例如风格迁移和3D DeepDream。 相关工作 1. 神经网络中的三维表示:三维表示有很多方法,比如前面提到的体素、点云等,但是它们都有一定的不足,或者不适合三维重建。其中,多边形网格具有存储效率高、适用于几何变换且具有曲面等特点,因此它实际上是计算机图形学( CG )和计算机辅助设计( CAD )中的标准形式。然而,由于多边形网格的数据结构是一个复杂的图形,很难集成到神经网络中。 2. 单图片三维重建:从图像中估计三