DeCLIP: Decoding CLIP representations for deepfake localization——解码CLIP表示以进行深度伪造定位

最新推荐文章于 2025-04-27 00:57:09 发布

Together_CZ

最新推荐文章于 2025-04-27 00:57:09 发布

阅读量865

点赞数 10

文章标签：计算机视觉深度学习人工智能 DeCLIP Decoding representations 深度伪造定位

本文链接：https://blog.csdn.net/Together_CZ/article/details/144741183

版权

这篇文章提出了DeCLIP，一种利用预训练的CLIP特征进行深度伪造定位的方法，旨在检测图像中的局部篡改区域。以下是文章的主要内容：

问题背景：
- 深度伪造技术可以生成逼真的伪造图像，尤其是局部篡改图像，难以被人眼察觉。
- 现有的深度伪造检测方法在跨生成器泛化方面表现不佳，尤其是在面对未见过的生成器时。
方法创新：
- DeCLIP利用预训练的CLIP特征，结合卷积解码器，实现了对局部篡改区域的精确定位。
- 通过一致性融合模块（CFM）和空间细化模块（SRM），增强了跨任务的一致性和定位精度。
- 提出了动态损失优先级方案（LPS），通过归一化任务损失并动态调整更具挑战性任务的权重，优化了多任务训练。
实验与结果：
- 在Dolos和PASCAL-Context数据集上进行了实验，DeCLIP在多个任务上达到了最先进的性能，尤其是在语义分割和深度估计任务上表现突出。
- 实验表明，DeCLIP在**潜在扩散模型（LDM）**生成的图像上也能有效定位篡改区域，并且在跨生成器泛化方面表现优异。
关键发现：
- 使用更大的卷积解码器可以更好地利用预训练特征，提高定位精度。
- 在LDM数据上训练可以显著提高模型的泛化能力，尤其是在面对其他生成器时。
贡献：
- 首次将CLIP特征应用于局部篡改图像的定位任务。
- 通过实验验证了CLIP特征在深度伪造检测中的强大泛化能力。
- 提供了对模型架构、特征提取层和解码器选择的全面分析。

DeCLIP通过结合预训练的CLIP特征和强大的解码器，显著提升了深度伪造定位的精度和泛化能力，尤其是在面对复杂的局部篡改和跨生成器场景时表现出色。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

项目主要环境依赖如下：

Python 3.10.14
pytorch=2.2.2 (cuda 11.8)
pytorch-cuda=11.8
torchvision=0.17.2
scikit-learn=1.3.2
pandas==2.1.1
numpy=1.26.4
pillow=10.0.1
seaborn=0.13.0
matplotlib=3.7.1
tensorboardX=2.6.2.2

官方发布的预训练模型如下：

Backbone	Feature Layer	Decoder	Training Dataset	Download Link
ViT	layer20	conv-20	Pluralistic	Download
ViT	layer20	conv-20	LaMa	Download
ViT	layer20	conv-20	RePaint-p2-9k	Download
ViT	layer20	conv-20	LDM	Download
ViT	layer20	conv-20	COCO-SD	Download
ViT+RN50	layer20+layer3	conv-20	Pluralistic	Download
ViT+RN50	layer20+layer3	conv-20	LaMa	Download
ViT+RN50	layer20+layer3	conv-20	RePaint-p2-9k	Download
ViT+RN50	layer20+layer3	conv-20	LDM	Download

摘要

生成模型可以创建全新的图像，但它们也可以部分修改真实图像，使其对人眼不可察觉。本文解决了自动检测此类局部篡改的挑战。深度伪造检测中最紧迫的问题之一是模型能否泛化到不同类型的生成器。对于完全篡改的图像，从大型自监督模型（如CLIP）中提取的表示为更鲁棒的检测器提供了有前景的方向。本文介绍了DeCLIP——首次尝试利用此类大型预训练特征来检测局部篡改。我们表明，当与一个合理大小的卷积解码器结合时，预训练的自监督表示能够执行定位，并提高现有方法的泛化能力。与之前的工作不同，我们的方法能够在潜在扩散模型（LDM）的挑战性案例中执行定位，其中整个图像都受到生成器指纹的影响。此外，我们观察到，这种结合局部语义信息和全局指纹的数据比其他类别的生成方法提供了更稳定的泛化。

1 引言

本文解决了在部分篡改图像中定位篡改区域的任务。例如，给定一个政治人物的视频，其嘴巴被篡改以使其看起来像是在说某句话，我们希望自动识别该区域为伪造。这种篡改类型由于大部分上下文是真实的，只有一小部分被篡改，因此既具有高度欺骗性，又由于修复技术的广泛可用性而易于实现。精确的局部篡改定位可以防止这种常见类型的攻击，并提供比检测方法更丰富和可解释的输出，后者仅输出二元标签（伪造或真实）。

图1. 方法概述。我们通过使用学习到的卷积解码器解码冻结的CLIP嵌入信息来执行篡改定位。嵌入在任意层L提取，并通过解码器逐步上采样。

深度伪造定位（以及深度伪造检测）的主要挑战仍然是泛化能力。当训练和测试数据由类似方法生成时，检测是可能的[64]，但当测试数据由未见过的生成方法生成时，性能急剧下降[22, 32, 35]。深度伪造检测器通常是高容量网络，依赖于指纹[70, 41]——生成器留下的不可察觉的模式。但这些指纹对生成器（类型[7, 53]、训练数据[70, 41]、种子[70]）敏感，阻碍了跨域性能。最近，研究表明可以用自监督模型生成的表示替换非常灵活的检测器。具体来说，Ojha等人[45]从预训练的CLIP模型[50]中提取特征，并在其之上使用线性分类器来区分伪造和真实图像。这种简单的方法在广泛的生成器上表现出强大的泛化能力。然而，该方法仅应用于完全篡改的图像，并用于预测图像级标签。

我们的想法是利用CLIP特征的内在泛化能力来执行定位任务。为此，我们首先评估这些自监督表示在局部篡改图像上的表现，然后将其整合到定位中。局部篡改图像比完全篡改图像更具挑战性，因为特征可能无法很好地捕捉细节。我们的结果表明，使用CLIP特征来暴露局部篡改图像作为伪造在很大程度上是失败的。但我们通过为模型配备更强大的解码器来缓解这个问题，该解码器可以更好地利用局部内容。

为了验证我们的方法，我们使用了Dolos数据集[60]。该数据集包含使用四种方法修复的面部图像（如嘴巴、头发、眼睛）：两种扩散方法和两种GAN方法。由于局部变化小、领域狭窄和现代生成方法，许多图像具有良好的感知质量。这与通常应用CLIP特征的图像不同且更具挑战性。许多这些数据集（如使用ProGAN[25]生成的数据集，用于训练）表现出明显的可见语义伪影，这可能有助于泛化。

Dolos中一个有趣的案例是其使用潜在扩散模型（LDM）修复的子集。原始论文即使在域内设置（在LDM上训练和测试）中也取得了较差的结果。作者推测这是因为LDM在潜在空间中进行修复，最终的放大步骤在整个图像中留下了伪影。我们通过在干净背景的图像上进行研究来验证这一说法。更重要的是，我们展示了基于CLIP的方法能够在原始LDM修复的图像上执行定位。此外，我们观察到在LDM上训练可以很好地泛化到其他生成器，这种行为无法通过在另一个生成器上训练或使用传统数据增强来实现。

我们的工作做出了以下贡献：（i）我们证明了大型预训练表示可以有效地用于深度伪造检测，并提高了现有方法的泛化能力。（ii）我们对影响我们模型的因素进行了全面研究：骨干类型、层、解码器类型和解码器大小。（iii）我们在LDM修复图像的挑战性案例中实现了高精度的篡改定位。此外，我们展示了在这种类型的数据上训练可以提高对其他类型数据的泛化能力。我们的代码可在以下网址获取：GitHub - bit-ml/DeCLIP

2 相关工作

随着生成建模的进步，越来越多的研究致力于揭露伪造内容；参见[32, 38, 42, 44, 61, 62]的综述。我们调查了与我们的方法相关的两个方向，即依赖自监督表示进行深度伪造检测的新兴趋势和深度伪造定位任务的技术。

深度伪造检测中的自监督表示。从未标记数据中学习可迁移表示近年来取得了显著进展[9, 23, 47, 50]。许多这些表示也已成功应用于深度伪造图像检测任务：特别是CLIP表示[50]被广泛使用[8, 27, 28, 34, 45, 52, 57, 74]，但其他视觉语言模型（如BLIP2[31]或InstructBLIP[9]）或纯视觉模型（如DINO v2[47]或MoCo v3[5]）的特征也被用于深度伪造检测[4, 26, 43, 52, 68]。这些表示要么保持冻结[52]并通过线性探测[45]，要么通过完全[27, 57]或部分[43]微调、提示调整[4, 27]、适配器技术[26, 27, 34]适应任务。适应过程可以通过优化二元交叉熵损失[45, 57]最简单地进行，但最近的方法已经尝试了对比损失[28]、教师-学生范式[74]或将文本编码器纳入学习过程的方式[27, 34, 57]。依赖自监督表示的趋势在其他模态的深度伪造检测中也可以注意到：视频[13, 17, 46]和音频[48, 49, 65]。

篡改定位。局部篡改是低级图像编辑技术（拼接[11]、复制移动[66]、对象移除[56]）或深度学习方法（面部交换[55]、修复[37, 69]）的结果。许多检测方法依赖于频率信息[16, 36, 63]、噪声信息[15, 29, 30, 39, 73]和一致性检查[1, 21]的组合。在架构方面，通常使用卷积[30, 36, 39, 67]和自注意力[10, 16, 18, 58, 63]层。最常见的损失是像素级二元交叉熵[20, 29, 39]或其变体，如焦点[30]或Dice损失[15]；有时与图像级损失[63, 71]结合使用，或在多任务设置中使用[16]。虽然监督学习是典型的设置，但也可以以弱监督的方式提取定位图[60]，提供可以帮助人类[14]或算法[2]改进的解释。泛化在少数工作中被明确考虑[15, 29]，但这些工作侧重于更传统的复制移动和拼接篡改。

3 概述和预备知识

我们的目标是在图像中定位篡改区域。我们的方法基于CLIP特征（第3.1节），因为这些特征在相关的深度伪造检测任务（分类整个图像是伪造还是真实）中表现出强大的泛化性能。然而，CLIP特征从未在局部篡改图像的背景下进行评估。在这里，我们考虑了Dolos数据集（第3.2节），这是一个具有挑战性且精心构建的数据集，它解耦了图像生成的多个轴。我们首次在Dolos上使用CLIP进行（图像级）深度伪造检测（第3.3节），并表明CLIP在其原始实例化中难以检测局部图像；我们在下一节中解决了这个问题。

3.1 CLIP特征

CLIP（对比语言-图像预训练）[50]是一个基础视觉语言模型，在从网络上自动抓取的超过4亿个图像-文本对上进行训练。其架构由两个编码器组成——图像编码器和文本编码器——它们被训练以最小化对比InfoNCE损失。Radford等人表明，该模型学习的视觉特征在各种任务中具有高度可迁移性。最近，Ojha等人[45]扩展了这一观察，表明从冻结的CLIP图像编码器中提取的特征可以区分伪造和真实图像。在CLIP特征上应用线性分类器的简单方法不仅在域内表现良好，而且更重要的是，它在许多不同数据集上比之前的工作具有更好的泛化能力，如扩散生成的图像、视频数据、低级图像篡改。在CLIP提供的图像编码器架构中，Ojha等人表明视觉变换器[12]比残差网络[19]表现更好。

表1. 完全篡改与局部篡改对检测的影响。我们报告了在Dolos数据集的P2子集上图像级深度伪造检测的平均精度。虽然CLIP + 线性在Dolos中完全生成的图像上表现良好，但在局部生成的图像上表现不佳。

3.2 Dolos数据集

Dolos[60]是最近引入的局部篡改面部数据集。该数据集用于分析弱监督深度伪造方法的能力，因此它提供了对图像生成的三个组成部分的受控设置：修复类型（局部、完全）、模型家族（P2[6]、LDM[54]、LaMa[59]、Pluralistic[72]）和训练数据（CelebA-HQ、FFHQ）。我们使用修复类型信息来研究局部篡改的影响（第3.3节），并使用模型家族信息来研究跨生成器的泛化（第4.2节）。关于生成器训练数据，我们限制自己使用CelebA-HQ变体。生成的图像（尤其是由扩散模型生成的图像——P2和LDM）非常逼真，使Dolos成为一个具有挑战性的域外数据集。

3.3 在Dolos上使用CLIP进行检测

Ojha等人[45]考虑的大多数数据集是完全生成的图像。但[45]中基于CLIP的模型在部分篡改图像上的表现如何？为了回答这个问题，我们考虑了使用P2扩散模型修复的Dolos图像，其中我们既有完全生成的图像，也有局部生成的图像。我们报告图像级检测的平均精度。表1显示了多种方法和训练数据组合的结果。

首先，我们观察到将Ojha等人的原始方法（在ProGAN上训练的CLIP + 线性）应用于Dolos中完全生成的图像时，平均精度为93.4%（行：1，列：P2完全）。这一性能与[45]中表2报告的平均性能93.3%相似，表明在从一般图像到面部、从GAN到扩散生成器的不同领域中具有良好的泛化能力。

然而，预训练的CLIP + 线性模型在局部篡改上的表现不佳，性能从93.4%下降到72.8%（行1）。这一结论也得到了面部交换篡改（另一种局部篡改）结果的支持：Ojha等人报告了82.5%的平均精度（表9，列：9，“Deepfakes”），这是他们使用的19个数据集中第二低的性能。

重要的是，即使在域内数据上训练，局部篡改的性能也没有提高：在P2完全或P2局部上训练仍然分别只获得79.2%（行2）或71.4%（行4）。另一方面，Patch Forensics[3]在[60]中用作基线，不受局部篡改的影响：它实现了95.3%的平均精度（行3）。这一结果促使我们开发基于CLIP特征的补丁方法。我们在下一节中描述的完整模型能够在局部图像上匹配Patch Forensics的性能，同时保持良好的泛化性能。

4 使用CLIP进行深度伪造定位

给定一个局部篡改的图像，我们的目标是生成一个展示篡改发生位置的地图：接近1的值表示相应的像素已被篡改；接近0的值表示像素是真实的。我们假设一个完全监督的设置，其中我们可以访问图像和地面实况地图；这种设置让人联想到对象分割任务中遇到的设置。

我们的主要想法是利用高质量的预训练图像表示，并将其与适当的解码器结合，训练用于深度伪造篡改定位。这是通过两个组件实现的：图像编码器，将图像编码为低分辨率特征网格；解码器，将编码的表示上采样到输入图像的高分辨率。我们命名为DeCLIP的方法如图1所示。

编码器。我们从预训练的CLIP图像架构（视觉变换器和残差网络）的各个层中提取表示。对于视觉变换器，我们选择ViT-L/14变体，它在16×16的14×14大小的补丁上操作，并具有24个自注意力层；每层输出256个1024维的输入补丁嵌入和一个额外的全局CLS标记，我们将其丢弃。对于残差网络，我们使用ResNet-50变体。该变体有四个块：在第一个块之后，输出是56×56的256维嵌入；随着每个后续块，嵌入维度加倍，而空间分辨率减半。

解码器。我们使用基于卷积的架构解码CLIP表示中的信息。该架构由四个块组成，每个块序列化MM个子块和一个×2的双线性上采样层。一个子块由一个5×5卷积层组成，后跟批量归一化和ReLU激活。为了将输出投影到灰度掩码空间，我们使用最终的5×5卷积层。本文中提到的解码器是conv-{4, 12, 20}，其中数字表示子块的总数（4M4M）并控制解码器的大小。

关于编码器骨干、提取特征的层、解码器大小的选择在第4.2和4.3节中进行了分析。

4.1 实验设置

数据集和指标。我们在Dolos数据集的四个局部篡改子集（第3.2节）上报告结果：LaMa、Pluralistic、LDM、P2。我们考虑所有16种训练-测试组合（4种训练×4种测试），并报告预测的二进制掩码与地面实况掩码之间的交并比（IoU）。我们通过在连续预测上使用固定阈值0.5来获得二进制预测。为了便于方法之间的比较，我们报告了聚合指标。我们根据训练和测试数据集是否匹配来考虑平均IoU。ID IoU（域内交并比）计算为训练和测试集匹配时的4种组合的平均IoU。它作为衡量所选数据集难度的上限（检测器学习由固定深度伪造生成器引起的模式的能力）。OOD IoU（域外交并比）计算为训练和测试集不同时的12种组合的平均IoU。它衡量对未见数据的泛化能力和模型处理数据中多样变化的能力。

实现细节。我们适应了[45]中用于深度伪造检测的训练设置以进行定位。我们优化预测掩码和地面实况掩码之间的二元交叉熵损失。超参数保持不变。具体来说，我们使用Adam优化器，初始学习率为10−310−3，使用五个epoch的耐心将其减少10倍。当学习率降至10−610−6以下时，训练停止。

表2. Dolos数据集上深度伪造定位方法的比较。我们报告了域内（ID）IoU（在Dolos的四个数据集上平均）和域外（OOD）IoU（在十二种训练-测试组合上平均，其中训练集和测试集不同）。DeCLIP在OOD场景中表现更好，同时在ID场景中也表现出色，仅被PSCC-Net超越。

4.2 主要结果

基线。我们将DeCLIP与以下基线进行比较：（i）Patch Forensics在[3]中提出，并在[60]中用于弱监督定位和Dolos数据集上的跨生成器定位。原始方法从Xception网络的第2块中提取特征，并使用1×1卷积层将其投影到二进制预测。由于最后一步等同于线性解码器，我们还实验了更强的20层卷积解码器。（ii）CLIP-ViT-L/14-linear是[45]中提出的用于图像级检测的方法，我们对其进行最小调整以进行定位：不使用CLS标记，而是使用从ViT-L/14编码器的最后一层（L24）提取的特征图，并在其上学习线性补丁分类器。（iii）PSCC-Net[36]学习从图像中提取局部和全局特征，并在多个尺度上估计篡改掩码。（iv）CAT-Net[29]使用离散余弦变换系数学习压缩伪影以定位图像篡改。

定量结果。我们的主要结果如表2所示。对于所有方法，我们使用Dolos中所有16种训练-测试生成器组合，并报告ID和OOD设置的平均IoU结果。Patch Forensics（行1），最初应用于此任务的方法，在ID中表现出良好的性能，但在OOD中表现不佳。我们的起点，原始CLIP方法（行3），在ID中的性能比Patch Forensics差得多，在OOD中的性能相当。行6-8展示了我们方法DeCLIP的变体，这些变体显著提升了原始CLIP，在ID和OOD设置中都有所改进。与Patch Forensics相比，它在ID中具有相似的性能，但在OOD中相对提高了50%。我们还实验了为Patch Forensics添加更大的解码器（行2），但它没有帮助提高OOD性能。行4和5展示了与其他方法的比较，PSCC-Net和CAT-Net在与DeCLIP完全相同的场景中重新训练和测试。两者在OOD中的性能显著低于DeCLIP。它们在ID中的行为不同：PSCC具有良好的性能，而CAT-Net非常差。

图2. DeCLIP（第二行）和其他四种方法（Patch Forensics、CLIP-linear、PSCC、CAT-Net）在Dolos数据集上所有16种训练-测试组合中的预测示例。域内组合用蓝色突出显示；其他为域外组合。左上角的黑白图像显示了修复掩码（白色为修复区域），第一行其余图像为使用四种测试数据集（LaMa、Pluralistic、LDM、P2）之一修复的图像。

图3. 提取特征的层对ViT-L/14（左）和ResNet-50（右）骨干的影响。我们报告了Dolos数据集上域内（ID，橙色虚线）和域外（OOD，蓝色实线）的IoU性能。

定性结果。我们在图2中展示了DeCLIP（ViT-L/14）和其他方法在所有训练-测试设置中生成的输出定位掩码的示例。请注意，即使在较难的OOD场景中，DeCLIP也生成了一致且干净的掩码。PSCC-Net和Patch Forensics通常在ID中表现良好（除了LDM-LDM案例），但在OOD场景中表现不佳。CAT-Net和CLIP:ViT-L /14-linear似乎学习了一般的面部特征，与实际修复区域无关。

4.3 消融实验

骨干和表示深度。对于ViT-L/14和ResNet-50骨干，我们改变了提取预训练表示的层深度。我们的结果如图3所示。当使用ResNet-50时，在较低卷积块（L1、L2）提取的表示在ID中的篡改定位效果最好，而在L3块提取的表示在OOD中效果最好。最后一个块L4在ID和OOD中的性能都较低。在ViT-L/14的情况下，可以看到类似的趋势，使用较低层（L7）提取的特征时ID定位更高，而使用较高级别特征（L21）时OOD定位准确性增加。与ResNet-50不同，对于ViT-L/14，在OOD场景中最后一层的性能没有显著下降。

图4. 使用不同解码器获得的预测掩码。所有结果均使用DeCLIP ViT-L/14变体。第一行展示了LDM–P2场景，第二行展示了P2–LaMa场景。较大的卷积解码器产生了更平滑和精确的结果。

图5. Dolos数据集上三种方法的详细跨生成器性能：Patch Forensics [60]、使用ViT-L/14骨干（第21层）的DeCLIP、使用ResNet-50骨干（第3层）的DeCLIP。两种DeCLIP变体均使用conv-20解码器。

解码器架构。我们实验了三种类型的解码器：线性、卷积和自注意力。对于卷积解码器，我们改变了深度并选择了4、12和20个子块。自注意力解码器有2个注意力块。每个注意力块有16个头，隐藏大小为1024，与大小为4096的MLP相关联。对于所有解码器，我们使用双线性上采样。结果如表3所示，用于具有ViT-L/14骨干的DeCLIP。卷积解码器优于线性和自注意力解码器。此外，解码器越大，ID和OOD场景中的性能越好。这表明定位篡改需要更大的解码器来正确利用预训练表示。图4展示了两个训练-测试场景的视觉示例：LDM-Pluralistic和P2-LaMa。随着我们从线性解码器移动到基于注意力的解码器和卷积解码器，识别的篡改掩码变得更加精确（更少的侵蚀，更少的孔洞）。

4.4 详细结果

在前几节中，为了总结不同模型的定位性能，我们使用了域内和域外训练-测试组合的聚合度量。在这里，我们通过展示每个训练-测试组合的结果提供了更详细的视图。图5展示了Patch Forensics方法[60]和具有ViT-L/14或ResNet-50骨干的DeCLIP的这些结果。这些跨生成器矩阵的对角线显示了每个数据集的域内性能。我们看到Patch Forensics在三个生成器（P2、LaMa、Pluralistic）上稍微更准确，但在LDM生成器上完全失败。另一方面，DeCLIP在所有四个数据集上更稳定，甚至在LDM数据上给出了良好的结果（分别为44.1%和49.1%）。查看列，我们可以看到从一个数据集转移到其他数据集的效果。有趣的是，我们看到当在LDM上训练时，DeCLIP也很好地泛化到其他测试数据集。当在Pluralistic上训练时，情况并非如此，其在P2和LDM上的性能对于所有显示的方法都很低；这表明Pluralistic指纹与基于扩散的生成器（P2或LDM）产生的指纹几乎没有共同之处。LDM的情况值得进一步研究，我们在下一节（第5节）中进行。

5 LDM修复图像的情况

我们在第4.4节中看到，在使用LDM修复的图像中定位篡改比在使用其他技术（P2、LaMa、Pluralistic）修复的图像中执行此任务更具挑战性。此外，我们观察到在LDM数据上训练DeCLIP提供了强大的域外性能。这是什么原因？

首先，我们回顾一下LDM提供了一个非典型的图像修复案例。与所考虑的另外三种修复方法不同，LDM修复发生在潜在空间中。因此，生成的潜在图像必须投影回像素空间。这个放大步骤由变分自编码器（VAE）网络执行，它在整个生成的图像中留下伪影，而不仅仅是在修复区域中，如其他三种方法。这些伪影虽然不可察觉，但可以被网络检测到，这使得定位具有挑战性。接下来，我们进行多项分析以理解：（i）模型容量的影响；（ii）LDM在背景上留下的指纹的影响；（iii）LDM指纹与数据增强之间的关系；（iv）在一般内容图像上的性能。

更大的模型提高了LDM上的性能，但仅容量不足以泛化。Patch Forensics甚至无法在LDM图像上定位ID篡改，而DeCLIP表现更好。两者之间的一个重要区别是后者使用了更大的解码器。我们验证性能差异是否仅基于网络容量。我们考虑了两个更大的变体：Patch Forensics但使用conv-20解码器（42.6M参数）和PSCC[36]（3.6M参数）；这两个网络都在LDM子集上从头开始训练。表5中的结果表明，网络容量确实在一定程度上是良好性能的原因，因为Patch Forensics的较大变体比较小的基线有显著改进。然而，PSCC比两个Patch Forensics变体更好，而DeCLIP实现了最佳性能，参数数量与较大的Patch Forensics变体相当。

LDM背景指纹提供了稳定的域外性能。在LDM上的域内性能低于其他三种生成方法。相反，LDM的泛化性能比其他生成方法强得多。我们研究了LDM指纹在这种行为中的作用。为了解耦这一方面，我们创建了两个LDM数据集的变体：

LDM/clean，使用无指纹背景。该变体通过用原始真实图像的信息替换LDM生成图像的背景（掩码的补集）来创建。
LDM/real，由在掩码区域上有指纹的真实图像组成。该变体通过使用空掩码将真实图像传递给LDM，然后清理背景来创建。

结果如表4所示。清理背景指纹提高了域内结果：从49.1到62.1和67.3（参见“LDM变体”列的对角线）；这是预期的，因为背景上没有干扰。仅依赖指纹信息（行1）在两个域外数据集上给出了良好的结果（P2上56.9，Plura上43.2），表明LDM与这些方法共享相似的指纹。相反，在LaMa上的差结果（23.2）表明其指纹不同。通过进一步操纵目标区域的内容（行2），我们注意到在所有三个数据集上的结果更强。一个可能的原因是，这种设置与其他数据集相似：背景干净，而操纵区域受到低级和语义变化的影响。然而，原始LDM（行3）确保了最一致的域外性能，将LaMa（最具挑战性的数据集）上的性能从27.4提高到42.6。这可能是因为LDM迫使模型忽略指纹并专注于语义信息，这更具可迁移性。

低级数据增强诱导了与LDM指纹相似但较弱的效果。对LDM修复数据训练时展示的改进泛化的一个可能解释是，VAE解码充当数据增强：它在整个图像上引入低级伪影，迫使检测模型对低级变化具有鲁棒性，并更关注语义不一致。这一观察提出了一个问题：不同的低级数据增强是否有助于泛化？我们实验了三种类型的增强（高斯模糊、颜色抖动和JPEG压缩），我们将其应用于LDM/clean数据集中的所有图像。表7中的结果表明，增强具有与LDM指纹产生的效果相似的效果：它们通过提高LDM和LaMa数据集上的性能来平衡结果，有时会损害P2和Pluralistic上的性能。然而，没有任何增强或其组合平均上像LDM中的指纹伪影那样有帮助。

结论适用于更一般的领域。虽然Dolos数据集能够在具有挑战性和现实性的设置中仔细分析深度伪造定位，但它仅涵盖了一个狭窄的领域：面部。我们验证主要结论是否适用于更一般的图像。我们使用Stable Diffusion[54]（也是一个LDM模型）修复了来自MS COCO[33]的近11k图像（9k训练，829验证，985测试）。我们选择一个面积大于5%的随机对象的掩码，并使用原始图像标题提示修复模型。这个数据集，我们命名为COCO-SD，用于训练定位模型。（类似的数据集已由并发工作[40]提出。）为了评估泛化，我们使用AutoSplice数据集[24]。该数据集由DALLE-2[51]操纵的图像组成，其中特定对象被其他对象替换。它有三个变体，区别在于JPEG压缩：原始未压缩的（质量因子：100）和两个压缩的（质量因子为75和90）。表6展示了DeCLIP、Patch Forensics、PSCC和CAT-Net的结果。我们还展示了最后两种方法的预训练模型的结果，以及MantraNet[67]和TruFor[15]的结果。我们观察到，预训练模型，尤其是CAT-Net和PSCC，不稳定：它们在某些数据集上具有良好的性能，但在其他数据集上同样差。MantraNet在所有数据集上表现不佳，而TruFor在AutoSplice-100上具有良好的性能，但在其JPEG压缩变体和COCO-SD上较低。相反，在基于LDM的COCO-SD数据集上训练提供了更稳定的性能。这对于Patch Forensics、PSCC和DeCLIP尤其如此，它们在所有三个AutoSplice变体上表现相似。在模型比较方面，DeCLIP在域内表现更好，同时在域外AutoSplice数据集上略微优于PSCC。图6中的视觉示例显示，DeCLIP对伪造对象的定位更精确。

图6：COCO-SD上的篡改定位。DeCLIP提供了比其他方法更精确的定位。

6 结论

我们的论文介绍了DeCLIP——首次尝试解码大型自监督表示以进行篡改定位。通过广泛的实验，我们表明，不仅可以使用这些特征进行篡改定位，而且它们还显著提高了在OOD场景中的泛化能力，当存在训练-测试生成器不匹配时。我们对成功解码这些特征的因素进行了全面分析：骨干类型、层深度、解码器类型和大小。我们发现，更大的卷积解码器比线性或自注意力解码器提高了预测掩码的质量。此外，VIT-L/14和ResNet-50骨干表现出对比行为，可以通过结合来自两个骨干的表示来利用。最后，我们表明，与之前的假设相反，即使在LDM数据的挑战性案例中，也可以有效地执行篡改定位。有趣的是，在这种类型的数据上学习提供了鲁棒性，并提高了对其他类型局部篡改的泛化能力。

致谢。这项工作得到了欧盟地平线项目AI4TRUST（编号101070190）和ELIAS（编号101120237）以及CNCS-UEFISCDI（PN-IV-P7-7.1-PTE-2024-0600）的部分支持。