【论文阅读笔记】Advances in 3D Generation: A Survey

time:2024年1月31日
paper:arxiv
机构:腾讯

在这里插入图片描述

挖个坑,近期填完

仅是记录文章和吸收思想,具体的参考文献还请看paper

摘要

生成 3D 模型位于计算机图形学的核心,一直是几十年研究的重点。随着高级神经表示和生成模型的出现,3D 内容生成领域发展迅速,能够创建越来越高质量和多样化的 3D 模型。该领域的快速增长使得很难跟上所有最近的发展。

在本次调查中,我们旨在介绍 3D 生成方法的基本方法并建立结构化路线图,包括 3D 表示、生成方法、数据集和相应应用

  1. 我们引入了 3D 表示,作为 3D 生成的主干。
  2. 我们对生成方法快速增长的文献进行了全面概述,根据算法范式的类型进行分类,包括前馈生成、基于优化的生成、程序生成和生成新颖的视图合成。
  3. 我们讨论了可用的数据集、应用程序和开放的挑战

Introduction

  1. 神经辐射场和扩散模型的发展,促进了3D内容生成的显著进步
  2. 将 2D 内容生成扩展到 3D 空间的需求对于生成 3D 资产或创建沉浸式体验的应用程序变得越来越重要,特别是随着元界的快速发展
  3. 图1展示了从3DGAN到Instant3D的3D表示方法的变迁
  4. 图 2 显示了本次综述的概述。
    1. Sec 2中讨论本次调查的范围和相关工作。
    2. 第 3 节介绍了 3D 内容生成中使用的主要场景表示及其相应的渲染函数。
    3. 第 4 节探索了多种 3D 生成方法,可以根据算法方法分为四类:前馈生成、基于优化的生成、程序生成和生成新颖的视图合成。还描述了这些方法的进化树来说明它们的主要分支。由于数据积累在确保深度学习模型的成功中起着至关重要的作用,我们提出了用于训练 3D 生成方法的相关数据集。
    4. 我们对相关应用(例如 3D 人和人脸生成)进行了简要讨论,概述了开放挑战,并总结了这项调查。
      在这里插入图片描述

贡献

  • 鉴于最近基于 3D 视觉领域的生成模型的贡献激增,我们对 3D 内容生成进行了全面及时的文献综述,旨在为读者提供对 3D 生成框架及其基本原则的快速理解
  • 我们提出了 3D 生成方法的多视角分类,旨在帮助研究人员在特定域中处理 3D 内容生成,以快速识别相关工作并促进对相关技术的更好理解。

综述范围

  1. 本调查致力于系统地总结和分类 3D 生成方法,以及相关的数据集和应用程序
  2. 调查的论文主要发表在主要的计算机视觉和计算机图形学会议/期刊上,以及2023年在arXiv上发布的一些预印本。
  3. 尽可能多地包含3D生成的主要分支。
  4. 没有深入研究每个分支的详细解释,引入一些具有代表性的作品来解释它的范式。每个分支的详细信息可以在这些引用论文的相关工作部分中找到。

神经场景表示

在3D AI生成内容领域,采用合适的3D模型表示是必不可少的。

在这里插入图片描述

显示表示

显式场景表示是计算机图形学和视觉的一个基本模块,因为它们提供了描述3D场景的全面手段。通过将场景描述为基本基元的集合,包括点状基元、三角形网格和高级参数曲面,这些表示可以创建各种环境和对象的详细和准确的可视化

点云

点云是欧氏空间中的元素集合,表示三维空间中附加属性(如颜色和法线)的离散点。除了可以被认为是无穷小的小表面斑块的简单点外,还可以使用半径为(surfels)的定向点云。
Surfels 用于计算机图形学以进行可微的渲染点云(称为splitting分裂),并允许研究人员定义可微渲染管道来调整点云位置和特征,如半径或颜色。
基于神经点的渲染技术利用可学习的特征来存储有关表面外观和形状的信息,从而实现更准确和详细的渲染结果。

通过将基于点云的可微渲染器合并到3D生成过程中,研究人员可以利用点云的好处,同时保持与基于梯度的优化技术的兼容性。
点云渲染的两种方式:将离散样本与一些局部确定性模糊核混合的点Splitting(3DGS?)或传统的点渲染

Meshes网格

过将多个顶点与边连接,可以形成更复杂的几何结构(如线框和网格)。然后可以通过使用多边形(通常是三角形或四边形)进一步细化这些结构,以创建对象的真实表示。网格提供了一种通用且高效的表示复杂形状和结构的方法,因为它们可以很容易地被计算机算法操作和渲染。大多数图形编辑工具链利用三角形网格
与预测离散纹理相比,提出了通过神经网络优化的连续纹理方法。通过这种方式,可以提供更精细和详细的纹理,提高生成的 2D 模型的整体质量和真实性。
将网格表示集成到 3D 生成中需要使用基于网格的可微渲染方法,这使得网格能够以与基于梯度的优化兼容的方式栅格化。已经提出了几种这样的技术,包括 OpenDR、神经网格渲染器(Neural 3D Mesh Renderer)和软光栅化器(Soft Rasterizer)等。此外,像Mitsuba 2和Taich这样的通用基于物理的渲染器通过自动微分支持基于网格的可微渲染。

多层表示

使用多个半透明彩色层来表示场景实时新视图合成中已经成为一种流行且成功的方案
使用分层深度图像(LDI)表示是一个显著的例子,它通过整合多层深度图像和相关的颜色值扩展了传统深度图。一些方法从LDI表示中汲取灵感,并利用深度学习的进展来创建能够预测LDI的网络。除了LDI,Stereomagnification最初引入了多图像(MPI)表示。它**使用多个前平行半透明层来描述场景,包括颜色和不透明度,在固定深度范围内通过平面扫描体。借助体积渲染和单应投影,新视图可以实时合成。**基于Stereomagnification,各种方法采用了MPI表示来增强渲染质量。多层表示已经进一步扩展以适应更广阔的视野,通过用球体替代平面。

隐式表示

显式表示已经成为视图合成或形状重建问题的首选场景表示,以及计算机图形学和视觉中的许多其他应用。与通常关注物体表面的显式场景表示不同,隐式表示可以定义3D对象的整个体积,并使用体绘制进行图像合成。这些表示利用数学函数,如NeRF或SDF来描述三维空间的性质。

Neural Radiance Fields

从根本上说,nerf引入了一种新的3D场景或几何图形表示。NeRF将场景描述为一个连续的体积。
这种方法涉及通过查询隐式神经网络来获得体积参数,例如视相关辐射和体积密度。这种创新的表示提供了一种更流畅和适应性的方法来捕捉3D场景的复杂性,为增强渲染和建模技术铺平了道路。

具体来说,NeRF表示具有连续体积辐射场的场景,它利用 MLP 将位置 x 和视图方向 r 映射到密度 σ 和颜色 c。为了渲染像素的颜色,NeRF 投射一条射线 r(t) = o + td 并评估沿射线的一系列点 { t i t_i ti}。通过体绘制将采样点的评估{(σi, ci)}累积到像素的颜色C®中:
C ( r ) = ∑ i T i α i c i ,  where  T i = exp ⁡ ( − ∑ k = 0 i − 1 σ k δ k ) , C(r)=\sum_{i} T_{i} \alpha_{i} \mathbf{c}_{i}, \quad \text { where } T_{i}=\exp \left(-\sum_{k=0}^{i-1} \sigma_{k} \delta_{k}\right), C(r)=iTiαici, where Ti=exp(k=0i1σkδk),

α i = 1 − exp ⁡ ( − σ i δ i ) αi = 1−\exp(−σ_iδ_i) αi=1exp(σiδi)表示采样点的不透明度。累积透射率 T i T_i Ti量化了在没有遇到其他粒子的情况下从 t0 到 ti 行进的光线的概率, δ i = t i − t i − 1 δ_i =t_i - t_{i-1} δi=titi1表示相邻样本之间的距离。

Neural Implicit Surfaces

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值