7月第二周学习周报

a掌心扑火

已于 2023-07-16 09:11:26 修改

阅读量113

点赞数

文章标签：学习

于 2023-07-16 09:07:52 首次发布

本文链接：https://blog.csdn.net/m0_64687552/article/details/131746912

版权

学习时间

7.10-7.15

学习内容

阅读论文GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

学习笔记

GIRAFFE 是一种基于学习的、完全可微的渲染引擎，它允许您将场景组合成多个“特征场”的总和，这是 NeRF 中辐射场的概括。这些特征字段是 3D 体积，其中每个体素包含一个特征向量。特征域是通过合成 GAN 生成的学习表示来构建的，这些表示接受潜在代码作为 3D 场景的输入。由于特征字段应用于 3D 体积，因此您可以应用相似性变换，例如旋转、平移和缩放。您甚至可以将整个场景合成为各个特征字段的总和。

GIRAFFE实现的三个主要步骤

第一步是将图像转换为三维场景。这不仅仅是简单的三维场景，而是由三维元素（包括对象和背景）组成的场景。这种方法将图像视为由生成的体渲染图组成的场景，使得它们可以在生成的图像中改变相机位置，并独立地控制对象。

为了实现这一步骤，使用了模型NERV。不同的是，不再使用单一模型从输入图像生成完整的锁定场景，而是采用两个单独的模型来独立生成对象和背景。这些模型被称为采样特征域（Sampled Feature Fields），它们的参数在训练过程中学习。在细节上，这个方法与NERF非常相似。

第二步是编辑区域。通过拥有分离的元素场景，可以单独编辑它们而不会影响图像的其他部分。这意味着可以对象进行各种操作，如改变位置和方向。此外，可以根据需要添加新的对象并将它们放置在所需的位置。最后，将所有的特征字段组合在一起，形成涵盖所有对象和背景的最终三维场景。

第三步是将三维场景渲染为普通图像。由于目前仍处于三维世界中，团队可以通过改变相机的视角来决定如何观察场景。然后，使用相机光线和其他参数（如alpha值和透射率）来评估每个像素。这样就得到了特征图像，它由每个像素的特征向量组成。由于这些特征处于潜在空间中，需要将它们转换为RGB颜色和高分辨率图像。这是通过典型的解码器完成的，类似于其他GAN架构，它将特征图像放大到原始尺寸，并学习RGB通道的特征转换。通过这种方式，可以对生成的内容进行更多的控制