7月第二周学习周报

学习时间

7.10-7.15

学习内容

阅读论文GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

学习笔记

GIRAFFE 是一种基于学习的、完全可微的渲染引擎,它允许您将场景组合成多个“特征场”的总和,这是 NeRF 中辐射场的概括。这些特征字段是 3D 体积,其中每个体素包含一个特征向量。特征域是通过合成 GAN 生成的学习表示来构建的,这些表示接受潜在代码作为 3D 场景的输入。由于特征字段应用于 3D 体积,因此您可以应用相似性变换,例如旋转、平移和缩放。您甚至可以将整个场景合成为各个特征字段的总和。

GIRAFFE实现的三个主要步骤

第一步是将图像转换为三维场景。这不仅仅是简单的三维场景,而是由三维元素(包括对象和背景)组成的场景。这种方法将图像视为由生成的体渲染图组成的场景,使得它们可以在生成的图像中改变相机位置,并独立地控制对象。

为了实现这一步骤,使用了模型NERV。不同的是,不再使用单一模型从输入图像生成完整的锁定场景,而是采用两个单独的模型来独立生成对象和背景。这些模型被称为采样特征域(Sampled Feature Fields),它们的参数在训练过程中学习。在细节上,这个方法与NERF非常相似。

第二步是编辑区域。通过拥有分离的元素场景,可以单独编辑它们而不会影响图像的其他部分。这意味着可以对象进行各种操作,如改变位置和方向。此外,可以根据需要添加新的对象并将它们放置在所需的位置。最后,将所有的特征字段组合在一起,形成涵盖所有对象和背景的最终三维场景。

第三步是将三维场景渲染为普通图像。由于目前仍处于三维世界中,团队可以通过改变相机的视角来决定如何观察场景。然后,使用相机光线和其他参数(如alpha值和透射率)来评估每个像素。这样就得到了特征图像,它由每个像素的特征向量组成。由于这些特征处于潜在空间中,需要将它们转换为RGB颜色和高分辨率图像。这是通过典型的解码器完成的,类似于其他GAN架构,它将特征图像放大到原始尺寸,并学习RGB通道的特征转换。通过这种方式,可以对生成的内容进行更多的控制

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值