3D 重建
文章平均质量分 95
关于多视图生成和3D重建
calvinpaean
Carpe diem.
展开
-
MVDream 论文学习
作者证明这个多视图扩散模型作为一个隐式的可泛化的 3D 先验,不依赖于特定的 3D 表示,能适用于不同的 3D 场景。具体来说,我们可以通过在自注意力中连接所有不同视图,将原始的2D自注意力层扩展到3D,如下图所示,我们发现这种方法即使在视图差距很大的情况下也能生成相当一致的图像。本文方法通过直接训练一个多视图(MV)DreamBooth模型,然后是对 3D NeRF 的优化,它利用了扩散模型的一致性优势,并简化了 3D 建模的过程。作者利用了3D 数据集渲染连续的多视图图像,监督扩散模型的训练。原创 2024-08-12 17:36:33 · 208 阅读 · 0 评论 -
InstantMesh 论文学习
论文链接:https://arxiv.org/abs/2404.07191代码链接:https://github.com/TencentARC/InstantMesh解决了什么问题?这项技术可以从单个视角的2D图像中生成3D模型,这有助于简化3D内容的创建过程。3D资产的生成可以应用于虚拟现实(VR)、工业设计、游戏开发和动画制作等多个领域。随着大规模扩散模型的出现,图像和视频生成领域经历了一场革命。这些模型在数十亿规模的数据上训练,能够根据开放式的提示生成生动和富有想象力的内容。尽管图像和视频生成取原创 2024-08-06 14:11:09 · 1009 阅读 · 0 评论 -
DreamFusion 论文学习
扩散模型在 text-to-image 任务上有显著的效果,如 DALLE.E2。然而 text-to-3D 由于 3D 模型数据集不足,导致直接训练 text-to-3D 的扩散模型相当困难。跳过了这种训练框架,利用 text-to-image 与 NeRF 技术,达到 text-to-3D 的生成。原创 2024-08-10 16:08:57 · 945 阅读 · 0 评论 -
Wonder3D 论文学习
本文提出了一个多视角跨域的扩散机制,在两个不同的域上运行,生成多视角一致的法线图和彩色图。为了解决保真度、一致性、泛化性和效率的问题,本文提出了一个单视角 3D 重建方法,用一个跨域扩散模型来生成多视角、一致性的法线图和对应的彩色图像。为了增强不同视角的一致性,像 SyncDreamer 和 MVDream 一样,作者利用了注意力机制来促进不同视角的信息传递,隐式地编码多视角图像之间的关系,如下图所示。通过在注意力层共享不同视角的信息,扩散模型能够感知到多视角的关系,能够生成一致的多视角彩色图像和法线图。原创 2024-07-24 19:06:07 · 1013 阅读 · 0 评论 -
NeRF 论文学习
论文链接:https://arxiv.org/pdf/2003.08934代码链接:https://github.com/bmild/nerf解决了什么问题?计算机视觉领域最近的一个方向就是将物体和场景编码到 MLP 的权重里面,直接将 3D 空间位置映射到一个隐式表示,它不直接描述物体的表面,而是通过一些隐式函数(如等值面或距离函数)来定义物体的表面。例如,有符号距离函数(SDF)可以表示物体表面的距离,其中正值表示物体外部,负值表示物体内部。但是这种方法在生成逼真复杂几何场景方面的局限性,它在真实原创 2024-07-27 16:29:26 · 562 阅读 · 0 评论 -
Zero123++ 论文学习
随着新视图生成模型的涌现,3D 内容生成领域取得了显著进展,这些模型利用了强大的 2D 扩散生成先验知识,这些 2D 扩散模型是在互联网上的大规模数据集训练得到的。如果没有全局条件,针对可见区域生成的内容还是不错的,但是对于不可见区域,则生成质量就急剧下降了,因为模型缺乏推理物体的全局语义的能力。Reference Attention 指的就是,在对模型的输入去噪时,对一个额外的参考图像使用去噪 UNet 模型,并将参考图像中得到的自注意力 key 矩阵和 value 矩阵附加到去噪模型的相应的注意力层。原创 2024-08-07 15:49:26 · 1080 阅读 · 0 评论 -
NeuS 论文学习
从多视角图像重建物体的表面是计算机视觉和计算机图形学的基础课题。用神经隐式表征来做 3D 重建最近越来越受欢迎,一些方法将表面表示成 signed distance functions(SDF) 或占用。为了训练模型,这些方法使用一个可微的表面渲染方法,将 3D 物体渲染成图像,将它们和输入图像做比较进行监督。IDR 无法重建结构复杂的物体,会有突然的深度值变化。造成这个问题的原因是,IDR 使用的表面渲染方法只考虑了每条射线的单个的表面交点。原创 2024-07-26 18:04:11 · 298 阅读 · 0 评论 -
Zero123 论文学习
尽管Zero-1-to-3模型是在合成数据集上训练的,但它保持了强大的零样本泛化能力,能够很好地适应分布外数据集的图像,包括印象派绘画。定性和定量的实验表明,Zero-1-to-3方法通过利用互联网的大规模数据的预训练,显著优于现有的单视图3D重建和新视角合成模型。但是,将扩散模型扩展到3D领域将需要大量的昂贵的带注释的3D数据。然而,大多数现有的3D图像重建方法都是在封闭世界(closed-world)设置中操作的,这是因为它们依赖于昂贵的3D注释,例如CAD模型或特定类别的先验知识。原创 2024-08-06 21:45:50 · 880 阅读 · 0 评论 -
Era3D 论文学习
使用不同相机模型的输入图像来训练,任意焦距和拍摄高度的相机拍摄的图像都可以作为输入图像使用,而生成的图像都是正交的水平相机视角。然而,由于 Era3D 生成的图像都是正交和水平的视角,不同视角的图像的极线就是对齐的,如上图d 所示,作者就提出了一个高效的 row-wise attention 层。给定一个任意视角和焦距拍摄的图像,以标准的相机设定来生成其它视角的图像是非常困难的,因为这会给扩散模型增加一个额外的任务(隐式地推理相机的焦距和仰角)。尽管估计拍摄的仰角是可能的,但不太可能估计出输入图像的焦距。原创 2024-07-23 20:48:56 · 1019 阅读 · 0 评论