学习笔记：Towards Counterfactual Image Manipulation via CLIP 基于CLIP的反事实图像处理研究

最新推荐文章于 2024-09-18 09:03:32 发布

明天吃啥呀

最新推荐文章于 2024-09-18 09:03:32 发布

阅读量1k

点赞数 1

分类专栏：多模态迁移学习风格迁移文章标签：机器学习计算机视觉图像处理

本文链接：https://blog.csdn.net/Qi__Xi/article/details/127146897

版权

迁移学习同时被 3 个专栏收录

9 篇文章

订阅专栏

风格迁移

9 篇文章

订阅专栏

多模态

4 篇文章

订阅专栏

[ACM MM-2022] Towards Counterfactual Image Manipulation via CLIP 基于CLIP的反事实图像处理研究

1.背景
2. 方法
3. 实验
4. 总结

论文链接：https://arxiv.org/abs/2207.02812v2
代码链接：https://github.com/yingchen001/CF-CLIP

1.背景

利用StyleGAN的表现力及其解开的潜码，现有方法可以实现对不同视觉属性的高质量编辑。一个有趣但具有挑战性的问题出现了：生成模型能否针对其学习的先验实现反事实编辑？
由于自然数据集中缺乏反事实样本，因此我们可以使用对比语言-图像预训练模型（CLIP）以文本驱动的方式解决这个问题，为各种反事实概念提供丰富的语义知识。与域内操作不同，反事实操作需要更全面地利用CLIP中封装的语义知识，以及更精细地处理编辑方向，以避免陷入局部最小值或不希望的编辑。

因此，本文设计了一种新的对比损失，它利用预定义的CLIP空间方向从不同的角度来引导编辑朝向所需的方向。此外，本文还设计了一个简单而有效的方案，将CLIP嵌入（目标文本）显式映射到潜在空间，并将它们与潜码融合，以实现有效的潜码优化和准确编辑。

下图展现了文本驱动的反事实操作结果。给定一个源图像和描述反事实操作的文本，例如第一列绿色口红，第三列蓝色的狗，还有最后一列老鼠耳朵，可以看到本文的方法能够生成符合文本描述的图像。

2. 方法

2.1 整体框架

下图是本文方法的一个整体框架。左上角的 $I$ _src 是输入图像，右下角的黄色框中的是目标文本 $t$ _tgt，图中举例的是“绿色口红”。首先将目标文本 $t$ _tgt 送入CLIP的文本编码器，然后将提取的文本嵌入送到文本嵌入映射模块，也就是TEM，这个模块被训练将编码的文本嵌入投影到潜在空间中，来获得CLIP更明确的指导。

得到的这个投影特征与图像反转的潜码 $w$ 连接，然后将连接的潜码送入全连接层进行特征融合。与StyleCLIP类似，这里作者使用映射器从融合特征中获得残差Δ $w$ ，将其与最初潜码 $w$ 相加后，得到的新的潜码 $w$ ’，然后送入StyleGAN的生成网络，生成经过处理的图像 $I$ _edit 。

图2-1
aug(·) 是随机透视增强

接下来，使用不同的透视图对处理后的图像进行增强。这里采用随机透视增强有助于本文的框架从两个角度接近其目标：第一，模型用对抗性解决方案欺骗CLIP会变得更加困难，因为现在它必须同时在大多数随机增强的图像上产生适当的扰动；第二，作者推测在大规模预训练过程中，CLIP可能会学习对同一对象在不同视图下的几何信息进行建模。因此，透视增强提供的多个视图产生了具有不同视图几何信息的CLIP表示，这就有助于模型以3D结构感知的方式探索CLIP模型的语义信息。

最后使用生成的图像 $I$ _aug 来计算CLIP-NCE损失ℒ_NCE，利用CLIP中的语义知识在它的指导下发现编辑方向。

2.2 CLIP-NCE损失

本文提出的这个基于CLIP的噪声对比估计（CLIP-NCE）损失，用来最大化/最小化正负对之间的互信息，使我们能够更全面的利用 CLIP 模型中的语义信息。

为了应用CLIP-NCE损失，需要定义查询、正样本和负样本：

对比损失在CLIP空间中计算，其中从源到操纵嵌入的方向形成优化查询（蓝色箭头）。这里定义为Q，表示从增强图像到源图像的CLIP空间方向；
正样本由两部分组成（橙色箭头）：第一项K_T⁺ 表示从目标文本到源文本的CLIP空间方向，它用于规范编辑方向，鼓励Q与从源文本到目标文本的嵌入方向对齐。第二项 K_I⁺表示从源图像到目标文本的CLIP空间方向，目的是使潜码规则化，以免走得太远。正样本鼓励编辑方向指向目标文本嵌入，当模型过分强调文本嵌入方向K_T⁺ 时，这有助于规范潜码的编辑强度；
为了更好地提取CLIP模型的语义信息，利用CLIP空间中尽可能多的有用信息有助于提供更全面的指导。因此，作者将负样本K^-定义为从源图像到各种文本描述的CLIP空间方向（紫色箭头），避免了编辑带有中性文本描述的CLIP嵌入；
最后就是CLIP-NCE损失的定义，通过拉进正样本对和推开负样本对（通过在CLIP空间中最大化两个选择的正对之间的互信息和最小化负对之间的互信息），CLIP-NCE损失提供了CLIP的全面指导，并且促进了潜码的优化。

2.3 文本嵌入映射模块（TEM）

为了通过明确地整合CLIP嵌入的语义知识来提高编辑准确性，本文设计了一个简单而有效的文本嵌入映射模块（TEM），将目标文本 $t$ _tgt 的CLIP空间嵌入映射到潜在空间，并将它们与原始潜码 $w$ 融合。

对于给定的目标文本，首先使用CLIP的文本编码器 $E$ _T 将它嵌入到CLIP空间中的512维向量中，即 $e$ ^t = $E$ _T ( $t$ _tgt )。为了解开文本嵌入，并允许将关键编辑方向传播到相应的生成器层，作者使用一个由一组映射网络组成的文本映射器，每个映射网络都有4个连续的全连接层，并将文本嵌入投影到与其对应的潜在空间中。接下来，就可以将投影嵌入与原始潜码进行连接了，然后送入全连接层进行特征融合，来获取位于StyleGAN潜在空间中的融合嵌入。

图2-4
图中公式就是文本映射器的定义，n_latent 是指StyleGAN层的数量。

3. 实验

3.1 数据集

FFHQ：它由70,000个从 Flickr 爬取的高质量人脸图像组成，变化很大。本文采用在该数据集上预训练的StyleGAN模型作为面部图像处理的合成生成器。
CelebA-HQ：它是人脸数据集 CelebA 的高质量版本，具有30,000个对齐的人脸图像。本文按照StyleCLIP使用e4e模型在 CelebA-HQ人脸图像的倒置潜码上训练和测试模型。
AFHQ：它包含高质量对齐的动物图像。该数据集提供了猫、狗和野生动物的3个领域，每个领域产生5,000张图像。本文使用相应的预训练StyleGAN模型对猫和狗领域进行实验。

3.2 定性比较

作者将本文方法与另外三种最新技术进行了定性比较。第一行是输入图像，其余行是不同方法的处理结果。反事实的目标文本涵盖了全局操作（例如赛博朋克）和局部操作（例如精灵耳）。

图4-1

TediGAN是目前先进的文本驱动人脸生成和操作的方法，从图中可以看出，它倾向于产生伪影，而不是对目标进行有意义的变化；
StyleCLIP是第一个利用CLIP功能的文本驱动图像处理方法。它可以一定程度上的进行反事实操作，特别是局部操作，但它可能会产生不准确的编辑，比如第一列的“紫色眉毛”和中间列的“绿色口红”，它就没有编辑特定区域，而是编辑了背景和衣服；
StyleGAN-NADA也利用了CLIP来进行文本驱动，并且它支持域外操作，它的操作结果通常符合目标描述，但会存在身份和图像质量下降的问题；
相比之下，本文的方法会为各种反事实文本描述生成准确且高保真的结果，同时将身份损失降至最低。

本文还在动物数据集（AFHQ）上与两种利用CLIP的方法进行了比较。

左边是Dog域的数据集，从图中可以看出，StyleCLIP几乎不符合任何反事实描述，并且还会产生不需要的语义变化。StyleGAN-NADA展示了目标文本的编辑方向，但图像质量和对象语义有所下降；
右边是Cat域的数据集，StyleCLIP没有明确目标编辑区域，而是进行了全局更改。 StyleGAN-NADA可以对目标描述产生合理的操作，但存在过度或不准确的编辑；
本文的编辑方法与目标描述保持一致，同时很好地保留了图像质量和身份信息。

3.3 用户研究

对于每个数据集，作者从每种对比方法的8个不同的反事实编辑描述中随机抽取3个经过处理的图像，然后打乱它们的顺序，从而产生24组结果进行评估。然后将图像呈现给30名受试者，他们分别被要求完成两项任务。

第一个任务是测量编辑准确度，受试者需要根据不同方法处理的图像与目标描述的匹配程度，为每种方法提供排名。第二个任务要求受试者根据他们的视觉真实性对相同的图像进行排名，也就是反事实概念与被操作图像的匹配程度。

对于这两个任务，1 表示最好，4 表示最差。表中数字为用户偏好的平均排名，能够看出本文的方法在不同数据集的两个任务中始终优于最先进的技术。

3.4 消融实验

蓝色框中显示了本文所提出的CLIP-NCE损失和文本嵌入映射模块（TEM）的有效性。橙色框中的部分显示了增强方案的有效性。

先看左边蓝色框中的部分。第一列（w/ ℒ_global）是将CLIP-NCE损失替换为全局CLIP损失，在“紫色眉毛”的情况下，使用全局CLIP损失会导致操纵眼睛的颜色而不是目标眉毛的颜色，而在“绿色舌头”的情况下则几乎没有发生变化（陷入局部最小值）；第二列（w/ ℒ_dir）是替换为定向CLIP损失，这在第一种情况下导致了所有相关区域的过度编辑，在第二种情况下无法正确编辑舌头颜色；第三列（w/o TEM）是去掉了TEM 模块，如果没有TEM模块，模型将无法准确定位目标区域，例如，它会编辑眼睛颜色而不是眉毛。这个结果表明，CLIP-NCE损失和TEM模块对于实现准确和真实的反事实操作都是必不可少的。
然后再看右边橙色框中的部分。第一列（w/o aug）是没有增强方案，直接在生成的图像上计算损失，如果没有透视增强，模型会失去对目标对象3D结构的一定理解，并且无法定位目标区域；第二列（w/ Affine）是用随机仿射增强代替随机透视增强，处理后的图像上的2D仿射变换不能完全替代透视变换的效果；第三列（w/ Crop）是执行随机裁剪增强，然后将图像大小调整回其原始分辨率。由于随机裁剪增加了局部视图，这往往会导致不希望的编辑（例如，第二种情况的绿眼）。