【论文解读】CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields

游不动的鱼-learning

已于 2023-04-03 08:52:29 修改

阅读量1.2k

点赞数 2

文章标签：深度学习计算机视觉人工智能

于 2023-04-03 08:38:02 首次发布

本文链接：https://blog.csdn.net/KeepLearning1/article/details/129921085

版权

CLIP-NeRF是一种结合CLIP模型的NeRF编辑方法，允许用户通过文本提示或示例图像对3D内容进行灵活控制。它通过解缠的条件NeRF架构实现形状和外观的独立控制，解决了NeRF编辑的挑战。通过CLIP的文本-图像嵌入空间，实现了多模态的3D编辑，同时提供了快速的前馈代码映射器进行编辑推理，以及反演方法来编辑真实图像。实验表明，CLIP-NeRF在编辑质量和效率上优于同类方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0 Clip简介

参考：https://zhuanlan.zhihu.com/p/493489688
https://zhuanlan.zhihu.com/p/477760524?utm_campaign=shareopn&utm_medium=social&utm_oi=1495143076113260544&utm_psn=1621916856541024256&utm_source=wechat_session
论文：http://arxiv.org/abs/2112.05139
code：https://github.com/cassiePython/CLIPNeRF

CLIP（Contrastive Language–Image Pre-training）是OpenAI的第一篇多模态预训练的算法，是一个基于图像和文本并行的多模态模型，然后通过两个分支的特征向量的相似度计算来构建训练目标。为了训练这个模型，OpenAI采集了超过4亿的图像-文本对。CLIP在诸多多模态任务上取得了非常好的效果，例如图像检索，地理定位，视频动作识别等等，而且在很多任务上仅仅通过无监督学习就可以得到和主流的有监督算法接近的效果。CLIP的思想非常简单，但它仅仅通过如此简单的算法也达到了非常好的效果，这也证明了多模态模型强大的发展潜力。

数据集

为了学习到通用的图像-文本多模态通用特征，必须采集足够覆盖开放计算机视觉领域的数据集。OpenAI采集了一个总量超过4亿图像-文本对的数据集WIT（WebImage Text）。为了尽可能的提高数据集在不同场景下的覆盖度，WIT的首先使用在英文维基百科中出现了超过100次的单词构建了50万个查询，并且使用WordNet进行了近义词的替换。为了实现数据集的平衡，每个查询最多取2万个查询结果。

算法介绍

CLIP的核心思想是将图像和文本映射到同一个特征空间，希望通过对比学习，模型能够学到文本-图像对的匹配关系。这个特征空间是一个抽象的概念，例如当我们看到一条狗的图片的时候，我们心中想的是狗，当我们读到狗的时候我们想的也是狗，那么我们心中想象的狗，便是“特征空间”。
所以CLIP也是由两个编码器组成，如下图所示：

图像编码器 Image Encoder：用于将图像映射到特征空间，可以采用NLP中常用的text transformer模型；
文本编码器 Text Encoder：用于将文本映射到相同的特征空间，可以采用常用CNN模型或者vision transforme

在模型训练过程中，我们取到的每个batch由N 个图像-文本对组成。这N 个图像送入到图像编码器中会得到 N 个图像特征向量 $I_1,I_2,...,I_N)$ ，同理将这 N 个文本送入到文本编码器中我们可以得到N个文本特征向量 $T_1,T_2,...,T_N)$ 。因为只有在对角线上的图像和文本是一对，所以CLIP的训练目标是让是一个图像-文本对的特征向量相似度尽可能高，而不是一对的相似度尽可能低，这里相似度的计算使用的是向量内积，计算文本特征和图像特征的余弦相似性（cosine similarity）。通过这个方式，CLIP构建了一个由 N个正样本和 $N^2-N$ 个负样本组成的损失函数。另外，因为不同编码器的输出的特征向量长度不一样，CLIP使用了一个线性映射将两个编码器生成的特征向量映射到统一长度。

优缺点

优点

训练高效
方便迁移
全局学习

缺点

数据集构建不全面，且未开源
通用效果
过分夸大zero-shot 学习能力

为什么可以用clip约束nerf的编辑？

验证clip提供的embedding是不是3D awareness，
实验：先针对两辆不同的车render出不同视角的图片，然后用clip计算图片间的cosine distance，发现同类型的车的cosine distance 距离更小，不同类型的车cosine distance更大。说明clip知道3D视角下的语义，即可以用来约束nerf。

1. 摘要

提出了一种神经辐射场(NeRF)的多模态3D目标操控方法，CLIP-NeRF。通过利用最近的对比文本-图像预训练(CLIP)模型的联合文本-图像嵌入空间，提出了一个统一的框架，可以用短文本提示或示例图像以用户友好的方式操控NeRF。
结合NeRF的新视图合成能力和生成模型潜表示的可控操纵能力，提出一种解缠的条件NeRF架构，允许对形状和外观进行单独控制。
这是通过对位置编码应用学习到的变形场来执行形状调节，并将颜色调节推迟到体积渲染阶段来实现的。
为了将这种解耦的潜在表示与CLIP嵌入连接起来，设计了两个代码映射器，它们将CLIP嵌入作为输入并更新潜在代码以反映目标编辑。映射器使用基于clip的匹配损失进行训练，以确保操作精度。
此外，论文提出了一种逆优化方法，准确地将输入图像投影到潜在代码中进行操作，以实现对真实图像的编辑。
实现流程

1.Introduction

神经辐射场(neural radiance fields, NeRF)利用体绘制技术渲染神经隐式表示，实现高质量的新视图合成，为3D内容提供了理想的表示。
编辑NeRF(例如，变形形状或改变外观颜色)极具挑战性，主要原因：

NeRF是每个场景优化的隐式函数，不能使用直观的工具直接编辑形状来实现显式表示；
与单视图信息就足以指导编辑的图像操作不同，NeRF的多视图依赖性使得没有多视图信息的操作方式更难控制。

Condition nerf（条件nerf）在一类形状上训练NeRF，并利用预先训练的模型通过潜在空间插值进行操作。编辑给定用户涂鸦的NeRF的形状和颜色。然而，由于它在形状操作方面的能力有限，只允许添加或删除对象的局部部分。

1.1 主要贡献

贡献点：

提出第一种NeRF的文本和图像驱动的操作方法，使用统一的框架为用户提供使用文本提示或示例图像对3D内容的灵活控制。
通过引入形状码来变形体积场和外观代码来控制发出的颜色，设计了一种解缠的条件NeRF架构。
与基于优化的编辑方法相比，前馈代码mapper能够快速推理编辑同一类别中的不同对象。
提出一种反演方法，从真实图像中推断形状和外观代码，允许编辑现有数据的形状和外观。

1.2 相关工作

NeRF在捕捉高分辨率几何图形和渲染照片逼真的新视图方面能力十分强大，目前已扩展到动态场景、新光照条件下的重光照、生成模型等等。

1.2.1 nerf 相关

DietNeRF 设计了CLIP语义一致性损失来改善少射NeRF，并给出了令人印象深刻的结果；
GRAF 首先采用形状和外观代码有条件地合成NeRF；
EditNeRF 定义了一个条件NeRF，其中由NeRF编码的3D对象以形状代码和外观代码为条件。通过优化这两个潜码的调整，可以实现用户对形状和外观颜色的编辑。然而，这种方法在形状操作方面的能力有限，因为它只支持添加或删除对象的局部部分，而且编辑速度很慢。

1.2.2 本文工作与EditNeRF的区别

提供了更自由的形状操作和支持全局变形；
通过学习两个前馈网络将用户编辑映射到潜在代码，我们的方法可以快速推断交互编辑；
与EditNeRF中使用的用户涂鸦不同，我们介绍了两种直观的NeRF编辑方法:使用短文本提示或示例图像，这对新手用户更友好。

1.2.3 clip 相关

clip以一种对比学习的方式，将文本和图像在共享的潜在空间中更紧密地连接起来。

**StyleClip ** 结合CLIP和StyleGAN，根据CLIP空间中定义的文本条件，通过优化预训练StyleGAN的潜在代码来合成图像。StyleCLIP没有从头生成图像，而是为StyleGAN引入了一个基于文本的接口，允许使用文本提示操作真实图像。
**DiffusionCLIP **将扩散模型与CLIP结合起来进行文本驱动的图像处理。该方法的性能与基于gan的图像处理方法相当，具有较大的模式覆盖率和训练稳定性。

上述操作都只利用了clip的文本引导能力，本文工作将文本驱动和图像驱动操作统一在一个模型中，且上述模型都局限于图像处理，缺乏3D信息，不能促进多视图一致性研究，本文工作结合nerf和clip，可以以视图一致的方式编辑3D模型。

2 方法

2.1 Conditional NeRF

建立在原始的每个场景NeRF之上，conditional NeRF service作为特定对象类别的生成模型，以专门控制形状和外观的潜向量为条件。conditional NeRF表示为一个连续的体函数 $F_θ$ ，它将5D坐标(空间位置 X (x, y, z)和视图方向V(φ， θ))，以及形状代码 $z_s$ 和外观代码 $z_a$

最低0.47元/天解锁文章