【学习】FaceForensics++: Learning to Detect Manipulated Facial Images

最新推荐文章于 2024-07-23 15:13:24 发布

Reddoge_

最新推荐文章于 2024-07-23 15:13:24 发布

阅读量1.1w

点赞数 8

分类专栏：深度学习神经网络文章标签：计算机视觉机器学习深度学习

本文链接：https://blog.csdn.net/Reddoge_/article/details/103825322

版权

深度学习同时被 2 个专栏收录

2 篇文章

订阅专栏

神经网络

2 篇文章

订阅专栏

论文题目：FaceForensics++: Learning to Detect Manipulated Facial Images
翻译：FaceForensics ++：学习如何检测被操纵的面部图像

作者：

Andreas Rossler ^1
Davide Cozzolino^2
Luisa Verdoliva^2
Christian Riess^3
Justus Thies^1
Matthias Nießner^1

1.Technical University of Munich
2.University Federico II of Naples 、
3.University of Erlangen-Nuremberg
在这里插入图片描述

图1：FaceForensics ++是面部伪造的数据集，使研究人员能够以监督的方式训练基于深度学习的方法。数据集包含使用四种最先进的方法创建的操作，即Face2Face，FaceSwap，DeepFakes和NeuralTextures。

【Abstract】

合成图像生成和处理的快速发展现在已经到了一个重要的高度，它引起了人们对社会影响的关注。首要的影响是，这会导致对数字内容的信任丧失，而且可能会通过传播虚假信息或虚假新闻而进一步造成伤害。本文研究了最先进的图像处理的现实性，以及自动或人工检测它们的难度。为了使检测方法的评估标准化，我们提出了面部操纵检测的自动基准1。特别是，该基准基于DeepFakes [1]，Face2Face [59]，FaceSwap [2]和NeuralTextures [57]，它们是随机压缩级别和大小下面部操作的主要代表。该基准是公开可用的，其中包含一个隐藏的测试集以及一个包含超过1：800万个已处理图像的数据库。该数据集是可比较的，可公开获得的伪造数据集大一个数量级。基于此数据，我们对数据驱动的伪造检测器进行了彻底的分析。我们表明，即使在强烈压缩的情况下，使用其他特定领域的知识也可以将伪造检测提高到前所未有的准确性，并且明显优于人作为观察者。

【1 - Introduction】

如今，对视觉内容的操纵已成为普遍的问题，并且是我们数字社会中最关键的主题之一。例如，DeepFakes [1]展示了如何使用计算机图形和可视化技术将人的脸替换为不同人的脸用来诽谤。目前，由于各种原因，人脸特别受到当前操作方法的关注：首先，人脸的重建和跟踪是计算机视觉中一个经过严格检查的领域[68]，这是这些编辑方法的基础。其次，面孔在人类交流中起着核心作用，因为一个人的面孔可以强调消息的大小，甚至可以自己传达消息[28]。当前的面部操作方法可以分为两类：面部表情操作和面部身份操作（见图2）。 Thies等人的方法是最杰出的面部表情操纵技术之一。 [59]称为Face2Face。它仅使用商品硬件就可以将一个人的面部表情实时地传递给另一个人。诸如“合成奥巴马” [55]之类的后续工作能够基于音频输入序列来对人的面部进行动画处理。
在这里插入图片描述
图2：人脸数字化的进步已成为现代人脸图像编辑工具的基础。编辑工具可以分为两个主要类别：身份修改和表达式修改。除了使用诸如Photoshop之类的工具手动编辑面部以外，最近几年还提出了许多自动方法。最著名和最广泛使用的身份编辑技术是人脸交换，由于轻量级系统现在能够在手机上运行，因此人脸交换已获得广泛普及。另外，现在可以使用面部重现技术，该技术通过将源人员的表情传输到目标来更改人员的表情。

身份操纵是面部伪造的第二类。这些方法无需更改表情，而是将每个人的面孔替换为另一个人的面孔。此类别称为人脸交换。它在诸如Snapchat之类的广泛消费类应用程序中变得流行。 DeepFakes还可以通过深度学习进行人脸交换。虽然基于简单计算机图形技术的人脸交换可以实时运行，但是DeepFakes需要针对每对视频进行培训，这是一项耗时的任务。

在这项工作中，我们证明了我们可以自动可靠地检测到此类操作，从而大大超越人类观察者。我们利用深度学习的最新进展，尤其是利用卷积神经网络（CNN）学习极其强大的图像特征的能力。我们通过以监督方式训练神经网络来解决检测问题。为此，我们基于经典的基于计算机图形学的方法Face2Face [59]和FaceSwap [2]以及基于学习的方法DeepFakes [1]和NeuralTextures [57]，生成了大规模的操作数据集。由于数字媒体取证领域缺乏伪造检测的基准，因此我们提出了一种自动基准，该基准考虑了现实情况下的四种操纵方法，即具有随机压缩和随机尺寸。使用此基准，我们评估了当前最先进的检测方法以及考虑面部操作方法受限领域的伪造检测通道。

我们的论文做出了以下贡献：

•随机压缩下面部操纵检测的自动化基准，以进行标准化比较，包括人类基线；
•新颖的大规模人脸图像数据集，由1,000幅中的180万幅图像组成具有原始（即真实）来源和可获取视频真相的视频，以实现有监督的学习；
•在各种情况下对最先进的手工制作和学习型伪造检测器进行广泛评估；
• 专门针对面部操作的伪造检测方法。

【2 - Related Work】

本文与计算机视觉和数字多媒体法证学的几个领域相交。我们在以下段落中介绍最重要的相关论文。

人脸操纵方法：

在过去的二十年中，对虚拟人脸操纵的兴趣迅速增加。佐尔霍夫（Zollhofer）等人已经发表了一份全面的最新报告 [68]。特别是，Bregler等 [13]提出了一种称为“视频重写”的基于图像的方法，以自动创建具有产生的嘴巴动作的人的新视频。 Dale等人用视频面部替换[20]。提出了第一种自动人脸交换方法。他们使用单摄像机视频来重建两个人脸的3D模型，并利用相应的3D几何形状将源人脸扭曲为目标人脸。 Gar rido等。 [29]提出了一个类似的系统，它在保留原始表情的同时替换了演员的脸。 VDub [30]使用高质量的3D面部捕捉技术，以照片般逼真的方式改变演员的脸部，使其与橡胶嘴的动作相匹配。 Thies等。[58]demon演示了面部表情的首次实时表情传递。他们基于消费者级别的RGB-D相机，重建并跟踪源和目标参与者的3D模型。跟踪的源面变形将应用于目标面模型。最后，他们将更改过的面孔融合到原始目标视频的上方。 Thies等人提出的Face2Face。 [59]是一种先进的实时面部重现系统，能够更改商品视频流（例如，来自互联网的视频）中的面部运动。他们结合了3D模型重建和基于图像的渲染技术来生成其输出。相同的原理也可以结合眼动和重现在虚拟现实中应用[60]，或者扩展到整个身体[61]。 Kim等。 [39]学习图像到图像的转换网络，将计算机的计算机图形渲染的面部图像转换为真实图像。代替纯图像到图像的翻译网络，NeuralTextures [57]结合渲染网络优化了神经纹理，以计算重演结果。与Deep Video Portraits [39]相比，它显示出更清晰的效果，尤其是在嘴巴区域。 Suwajanakorn等。 [55]学会了音频和嘴唇运动之间的映射，而他们的合成方法建立在与Face2Face [59]类似的技术之上。 Averbuch-Elor等。 [8]提出了一种演戏方法，将肖像带入生活，该方法采用2D扭曲使图像变形以匹配源演员的表情。他们还与Face2Face技术进行了比较，并获得了相似的质量。

最近，已经提出了使用深度学习技术的几种面部图像合成方法。 Lu等[47]提供了概述。生成对抗网络（GAN）用于应用人脸老化[7]，生成新观点[34]或更改人脸属性，例如肤色[46]。深度特征插值[62]在改变面部属性（如年龄，胡须，笑容等）方面显示出令人印象深刻的结果。相似的属性插值结果由Fader Networks [43]实现。这些基于深度学习的图像合成技术大多数都具有图像分辨率低的缺点。最近，Karras等。 [37]通过逐步增长GAN改善了图像质量，产生了高质量的人脸合成。

多媒体取证：多媒体取证旨在确保图像或视频的真实性，来源和出处，而无需嵌入式安全方案的帮助。着眼于完整性，早期的方法是由手工制作的功能驱动的，这些功能可以捕获在图像形成过程中发生的预期统计或基于物理的伪像。这些方法的调查可以在[26，53]中找到。最近的文献通过有监督和无监督的学习将重点放在基于CNN的解决方案上[10，17，12，12，9，35，67]。对于视频，工作的主要重点是检测可以用相对较少的精力创建的操作，例如丢失或重复的帧[63、31、45]，变化的插值类型[25]，复制移动操作[11、21] ]或色键组合[48]。

其他几项工作明确涉及检测与面部相关的操作，例如，将计算机生成的面部与自然面部[22、15、51]，变形的面部[50]，面部拼接[24、23]，面部交换[66、38]区分开和DeepFakes [5，44，33]。对于面部操纵检测，一些方法利用了合成过程中产生的特定伪像，例如眨眼[44]或颜色，纹理和形状提示[24、23]。其他工作则较为笼统，并提出了一个经过深层训练的网络，以捕获由低级和/或高级功能引起的细微不一致[50、66、38、5、33]。这些方法显示出令人印象深刻的结果，但是健壮性问题通常仍未得到解决，尽管它们在实际应用中至关重要。例如，已知有诸如压缩和调整大小之类的操作可用于从数据中洗涤操作痕迹。在现实世界中，例如将图像和视频上传到社交媒体时，这些基本操作是标准的，这是法医分析最重要的应用领域之一。为此，我们的数据集旨在涵盖此类现实场景，即来自野外，以不同质量级别处理和压缩的视频（请参见第3节）。如此庞大且多样化的数据集的可用性可以帮助研究人员对他们的方法进行基准测试，并开发出更好的人脸图像伪造检测器。

取证分析数据集：经典取证数据集是在非常可控的条件下通过大量的人工创建的，以隔离数据的特定属性，例如照相机伪像。虽然提出了几个包括图像处理的数据集，但其中只有少数几个还解决了录像的重要问题。例如，MICC F2000是一个图像复制移动操作数据集，包含来自各种来源的700个伪造图像的集合[6]。第一个IEEE图像预测挑战数据集共包含1176个伪造图像； Wild Web数据集[64]，其中90种来自网络的实际操作案例以及包括220张伪造图像在内的逼真的篡改数据集[42]。 Zhou等人提出了2010年FaceSwap和SwapMe生成的图像的数据库。 [66]。最近，Kor shunov和Marcel [41]建立了一个数据集，该数据集是由43个主题中的每个视频创建的620个深层伪造视频的。美国国家标准技术研究院（NIST）发布了最广泛的通用图像处理数据集，包含约50000个伪造的图像（本地和全球的）和大约500个伪造的视频[32]。

相比之下，我们构建了一个数据库，其中包含来自4000个虚假视频的180万张图像，比现有数据集多一个数量级。我们将在第4节中评估如此庞大的训练语料库的重要性

【3 - Large-Scale Facial Forgery Database】

在这里插入图片描述
图3：我们的序列统计。 VGA表示480p，HD表示720p，FHD表示我们视频的1080p分辨率。曲线图（c）显示了具有给定边界框像素高度（x轴）的序列数（y轴）。

本文的核心贡献是我们的FaceForensics ++数据集，它扩展了初步的FaceForensics数据集[52]。这个新的大规模数据集使我们能够以监督的方式训练用于脸部图像处理的最先进的伪造检测器（请参见第4节）。为此，我们利用了四种自动化的最新人脸处理方法，这些方法适用于从Internet下载的1000份原始视频（统计数据见图3）。为了模仿现实场景，我们选择从外部收集视频，特别是从YouTube收集视频。但是，所有操作方法的早期实验表明，目标脸必须接近正面，以防止操作方法失败或产生强烈的伪影。因此，我们对生成的剪辑进行手动筛选，以确保高质量的视频选择并避免视频带有面部遮挡。我们选择了包含509个视频的1,000个视频序列、 509914张图片，我们将其用作原始数据。

为了生成大规模的操作数据库，我们采用了最先进的视频编辑方法以使其完全自动运行。在以下各段中，我们简要描述这些方法。

对于我们的数据集，我们选择了两种基于计算机图形的方法（Face2Face和FaceSwap）和两种基于学习的方法（DeepFakes和NeuralTextures）。所有这四种方法都需要源和目标演员视频对作为输入。每种方法的最终输出是由生成的图像组成的视频。除了操纵输出之外，我们还计算表明像素是否已被修改的地面真伪蒙版，可用于训练伪造定位方法。有关更多信息和超参数，请参阅附录D。

FaceSwap：FaceSwap是一种基于图的方法，可将面部区域从源视频传输到目标视频。基于稀疏检测到的面部标志，提取面部区域。使用这些界标，该方法使用blendshapes拟合3D模板模型。通过使用输入图像的纹理使投影形状和局部地标之间的差异最小化，可以将该模型反投影到目标图像。最后，将渲染的模型与图像混合，并应用颜色校正。我们对所有源帧和目标帧都执行这些步骤，直到一个视频结束。该实现在计算上是轻量级的，可以在CPU上高效运行。

DeepFakes：术语Deepfakes已广泛成为基于深度学习的面部替换的代名词，但它也是通过在线论坛传播的特定操作方法的名称。为了区分这些，我们在以下论文中用DeepFakes表示上述方法。

DeepFakes有各种共同的实现，最著名的是FakeApp [3]和FacesWap github [1]。目标序列中的面部将替换为源视频或图像集合中已观察到的面部。该方法基于带有共享编码器的两个自动编码器，它们经过训练分别重构源脸和目标脸的训练图像。人脸检测器用于裁剪和对齐图像。为了创建伪图像，将源面部经过训练的编码器和解码器应用于目标面部。然后使用Poisson图像编辑将自动编码器的输出与其余图像混合[49]。

对于我们的数据集，我们使用faceswap github实现。我们通过使用全自动数据加载器替换手动训练数据选择来对实现进行一些修改。我们使用默认参数来训练视频模型。由于训练这些模型非常耗时，因此我们还将模型发布为数据集的一部分。这有助于通过不同的后处理来生成这些操作者的其他操作。

Face2Face：Face2Face [59]是一种面部重现系统，可在保持目标人物身份的同时将源视频的表情传输到目标视频。最初的实现基于两个视频输入流，并带有手动关键帧选择。这些框架用于生成面部的密集重建，可用于在不同照度和表情下重新合成面部。为了处理我们的视频数据库，我们将Face2Face方法改编为全自动创建重演操作。我们在预处理阶段处理每个视频；在这里，我们使用前几帧以获得临时的人脸身份（即3D模型），并在其余帧上跟踪表情。为了选择该方法所需的关键帧，我们会自动选择脸部最左和最右角度的帧。基于此身份重建，我们跟踪整个视频以按照Face2Face的原始实现方式每帧计算表情，刚性姿势和照明参数。我们通过将每个帧的源表达参数（即76个Blendshape系数）传输到目标视频来生成重新制定视频输出。有关重新制定流程的更多详细信息，请参见原始论文[59]。

NeuralTextures：Thies等[57]展示了面部重现作为其基于NeuralTextures的渲染方法的一个示例。它使用原始视频数据来学习目标人的神经纹理，包括渲染网络。这是结合光度重建损失和对抗损失来训练的。在我们的实现中，我们应用了Pix2Pix [36]中使用的基于补丁的GAN损失。 NeuralTextures方法依赖于在训练和测试期间使用的跟踪几何。我们使用Face2Face的跟踪模块来生成这些信息。我们只修改与嘴巴区域相对应的面部表情，即眼睛区域保持不变（否则，渲染网络将需要像深度视频人像[39]那样的眼睛运动的有条件输入）。

Postprocessing - Video Quality：为修改的视频创建逼真的设置，我们生成质量等级不同的输出视频，类似于许多社交网络的视频处理。由于原始视频很少在Internet上找到，因此我们使用H.264编解码器压缩视频，该编解码器已被社交网络或视频共享网站广泛使用。为了生成高质量的视频，我们使用由HQ（恒定速率量化参数等于23）表示的光压缩，该压缩在视觉上几乎无损。低质量视频（LQ）是使用40量化生成的。

【4 - Forgery Detection】

我们将伪造检测作为被操纵视频的每帧二进制分类问题。以下各节显示了手动和自动伪造检测的结果。对于所有实验，我们将数据集分为固定的训练，验证和测试集，分别由720、140和140个视频组成。使用测试集中的视频报告所有评估。对于所有图形，我们在附录B中列出了确切的数字。

4.1. Forgery Detection of Human Observers

为了评估人类在伪造检测任务中的表现，我们对204名参与者进行了用户研究，这些参与者主要由计算机科学大学生组成。这形成了自动伪造检测方法的基准。

用户布局的研究：对二进制任务进行了简短介绍之后，将指导用户对从我们的测试集中随机选择的图像进行分类。所选图像的图像质量和操作方法各不相同；我们使用了原始图片和假图片的50:50比例。由于检查图片的时间量可能很重要，并且为了模仿用户在社交媒体上常见的每张图片仅花费有限时间的情况，我们随机将时间限制设置为2秒，4秒或6秒我们将其隐藏起来。然后，询问用户所显示的图像是“真实”还是“伪造”。为了确保用户将可用时间用于检查，在显示图像之后而不是在观察时间内询问该问题。我们将研究设计为每位参与者仅花费几分钟，每位参与者显示60张图像，从而得出了12240个人工决策的集合。

评估：在图4中，我们显示了我们在所有质量水平上的研究结果，显示了视频质量与检测虚假视频的能力之间的相关性。视频质量较低时，人类表现平均会从68.7％下降到58.7％。该图显示了所有时间间隔内的平均值，因为不同的时间限制不会导致明显不同的观察结果。

在这里插入图片描述

图4：我们对204位参与者进行的用户研究的伪造检测结果。准确度取决于视频质量，导致原始视频的准确率平均下降68.69％，高质量视频的准确率平均为66.57％，低质量视频的准确率平均为58.73％。

请注意，用户研究包含所有四种操作方法的伪造图像和原始图像。在这种情况下，Face2Face和NeuralTextures尤其难以被人类观察者检测到，因为它们没有引入强烈的语义变化，与面部替换方法相比仅引入了细微的视觉伪像。 NeuralTextures纹理似乎特别难以检测，因为人类检测的准确性低于随机机会，并且仅在具有挑战性的低质量任务中有所增加。

4.2. Automatic Forgery Detection Methods

我们的伪造检测流程如图5所示。由于我们的目标是检测面部图像的伪造，因此我们使用了可从输入序列中提取的其他特定领域信息。为此，我们使用了Thies等人的最新人脸跟踪方法。 [59]跟踪视频中的面部并提取图像的面部区域。我们在跟踪的脸的中心周围使用保守的裁剪（放大了1：3的比例），将重新构造的脸封闭起来。与将整个图像用作输入的朴素方法相比，这种领域知识的结合提高了伪造检测器的整体性能（请参阅第4.2.2节）。我们通过使用不同的最新分类方法评估了我们方法的各种变体。我们正在考虑在法医界使用基于学习的方法进行通用操作检测[10，17]，计算机生成的与自然图像检测[51]和面部篡改检测[5]。此外，我们展示了基于XceptionNet [14]的分类在检测伪造品方面优于所有其他变体。

在这里插入图片描述
图5：针对面部操作的特定领域伪造检测管道：输入图像通过鲁棒的面部跟踪方法进行处理；我们使用该信息提取面部所覆盖图像的区域；该区域被输入到学习的分类网络中，该网络输出预测。

4.2.1 Detection based on Steganalysis Features:

我们根据隐写分析功能评估检测，并遵循Fridrich等人的方法。 [27]采用手工制作的功能。这些特征是高通图像上沿水平和垂直方向在4个像素模式上同时出现的，总特征长度为162。然后使用这些特征来训练线性支持向量机（SVM）分类器。这项技术是在首届IEEE Image Forensic Challenge [16]中获胜的方法。如该方法所示，我们提供了面部的128×128中央裁剪。尽管手工制作的方法在很大程度上提高了人类对原始图像的准确性，但它却难以应对压缩问题，导致低质量视频的准确性低于人类的表现（见图6和表1）。

4.2.2 Detection based on Learned Features:

为了从学习的特征中进行检测，我们评估了文献中已知的五种网络体系结构以解决分类任务：

（1）Cozzolino等。 [17]将上一节中的手工隐匿性特征转换为基于CNN的网络。我们在大规模数据集上微调此网络。
（2）我们使用我们的数据集来训练由Bayar和Stamm [10]提出的卷积神经网络，该网络使用一个受约束的卷积层，然后是两个卷积层，两个最大池层和三个全连接层。约束卷积层专门设计用于抑制图像的高级内容。与以前的方法类似，我们使用居中的128×128裁剪作为输入。
（3）Rahmouni等。 [51]采用具有全局池化层的不同CNN体系结构来计算四个统计量（均值，方差，最大值和最小值）。我们认为Stats-2L网络具有最佳性能。
（4）MesoInception-4 [5]是InceptionNet [56]启发的基于CNN的网络，用于检测视频中的面部篡改。该网络具有两个初始模块和两个与最大池化层交错的经典卷积层。然后，有两个完全连接的层。代替经典的交叉熵损失，作者提出了真实标签和预测标签之间的均方误差。我们将脸部图像的大小调整为256×256，即网络的输入。
（5）XceptionNet [14]是基于具有残差连接的可分离卷积在ImageNet上训练的传统CNN。通过将最终的完全连接层替换为两个输出，我们将其转移到了任务中。其他层使用ImageNet权重初始化。要设置新插入的全连接层，我们将所有权重固定到最后一层，并为网络预训练3个纪元。完成此步骤后，我们将网络训练了15个新纪元，并根据验证准确性选择了效果最好的模型。

有关我们的训练和超级参数的详细说明，请参见附录D。

在这里插入图片描述
图6：分别在我们的不同操作方法上进行训练时，使用面部跟踪在不同操作方法下所有评估架构的二进制检测准确性。

在这里插入图片描述

图7：在所有四种操作方法上进行模拟训练时，我们的基线的二进制精度值。有关平均准确度值，请参见表1。除了Full Image XceptionNet，我们还将提议的面部区域预提取作为方法的输入。

我们的伪造检测变体的比较：图6显示了使用所有网络体系结构的二进制伪造检测任务的结果，该网络体系结构在所有四种操作方法上分别进行了评估，并且具有不同的视频质量级别。所有方法都可以在原始输入数据上实现非常高的性能。压缩视频的性能下降，尤其是手工制作的功能和浅层CNN体系结构的性能下降[10，17]。神经网络在应对这些情况方面更胜一筹，因为XceptionNet得益于ImageNet上的预训练以及更大的网络容量，因此能够在低压缩率下获得令人信服的结果，同时仍然在低质量图像上保持合理的性能。

为了将我们的用户研究结果与自动检测器的性能进行比较，我们还在包含来自所有手动操作方法的图像的数据集上测试了检测变量。图7和表1显示了完整数据集上的结果。在这里，我们的自动检测器在很大程度上超越了人类的表现（参见图4）。我们还评估了一个在整个图像上运行的天真的伪造检测器（将其大小调整为XceptionNet输入），而不是使用面部跟踪信息（请参见图7，最右边的列）。由于缺少特定于域的信息，因此XceptionNet分类器在这种情况下的准确性大大降低。总而言之，特定领域的信息与XceptionNet分类器相结合，在每次测试中均显示出最佳性能。我们使用该网络进一步了解训练语料库大小的影响及其区别不同操作方法的能力。

基于GAN的方法的伪造检测：实验表明，与基于GAN的NeuralTextures方法相比，所有检测方法的准确性都较低。 NeuralTextures正在为每次操作训练一个独特的模型，这会导致可能的伪影更高的变化。 DeepFakes还在为每种操纵训练一种模型，但它使用类似于基于计算机的操纵方法的固定后处理管道，因此具有一致的工件。

在这里插入图片描述

表1：在所有四种操作方法上进行训练后，我们的基线的二进制检测准确性。除了简单的完整图像XceptionNet之外，所有方法都在围绕跟踪脸部中心的保守作物（放大1.3倍）上进行训练。

在这里插入图片描述

图8：我们使用XceptionNet的方法的检测性能取决于训练语料库的大小。特别是对于低质量的视频数据，需要一个大型数据库。

训练语料库大小的评估：图8显示了训练语料库大小的重要性。为此，我们分别在所有三个视频质量级别上使用不同的训练语料库大小来训练XceptionNet分类器。整体性能随训练图像数量的增加而增加，这对于低质量的视频镜头尤为重要，如图底部所示。

【5 - Benchmark】

除了我们的大规模操作数据库外，我们还发布了面部伪造检测的竞争基准。为此，我们收集了1000个其他视频，并以与第3节类似的方式对这四种操作方法中的每种方法进行了操作。由于将以各种方式对上传的视频（例如，上传到社交网络）进行后期处理，因此我们会多次遮盖所有选定的视频（例如，采用未知的调整大小，压缩方法和比特率），以确保符合实际情况。该处理直接应用于原始视频。最后，我们根据视觉检查从每个视频中手动选择一个具有挑战性的帧。具体来说，我们收集了1000张图片，每张图片都是从操作方法或原始素材中随机获取的。请注意，我们不一定要对原始图像和伪造图像进行均等划分，也不必对所使用的操作方法进行均等划分。地面真相标签被隐藏，并在我们的主机服务器上用于评估所提交模型的分类准确性。自动基准测试可以让每位提交者每两周进行一次子任务，以防止过拟合（类似于现有基准测试[19]）。

作为基准，我们在基准上评估我们先前训练的模型的低质量版本，并分别报告每种检测方法的数量（请参见表2）。除了Full Image XceptionNet，我们还使用拟议的面部区域预提取作为方法的输入。分类模型的相对性能类似于我们的数据库测试集（请参见表1）。但是，由于基准场景偏离了训练数据库，因此模型的整体性能会降低，尤其是对于原始图像检测精度而言。主要变化是随机质量水平以及测试过程中可能的跟踪误差。由于我们提出的方法依赖于人脸检测，因此在跟踪失败的情况下，我们将伪造作为默认值进行预测。

该基准已经向社区公开提供，我们希望它可以对后续工作进行标准化比较。

【6 - Discussion & Conclusion】

虽然当前最先进的面部图像处理方法显示出令人惊叹的视觉效果，但我们证明可以通过训练有素的伪造检测器进行检测。特别令人鼓舞的是，低质量视频的挑战性情况也可以通过基于学习的方法来解决，在这种方法中，人和手工制作的功能都表现出困难。为了使用特定领域的知识训练检测器，我们引入了一个经过处理的人脸视频的新颖数据集，该数据集比所有现有的公开可用法医数据集都高出一个数量级。

在这里插入图片描述
表2：以我们的基准为基础的每种检测方法的低质量训练模型的结果。我们报告了DeepFakes（DF），Face2Face（F2F），FaceSwap（FS），NeuralTextures（NT）和原始图像（Real）的精度结果，以及整体的总体精度。

在本文中，我们重点关注压缩对最新操作方法的可检测性的影响，并为后续工作提出了标准化基准。所有图像数据，训练有素的模型以及我们的基准都是公开可用的，并且已被其他研究人员使用。特别是，转移学习在法医界具有很高的兴趣。随着新方法的出现，必须开发出能够在几乎没有培训数据的情况下检测假货的方法。我们的数据库已经用于此法医转移学习任务，其中将一个源操作域的知识转移到另一目标域，如Coz zolino等人[18]所示。我们希望数据集和基准成为数字媒体取证领域未来研究的垫脚石，尤其是关注面部伪造。

【7 - Acknowledgement】

我们非常感谢AI基金会，TUM-IAS的RudolfMoßbauer奖学金，ERC起始补助金Scan2CAD（804724）和Google教职员工奖对这项研究的支持。我们还要感谢Google的Chris Bregler在云计算方面的帮助。此外，该材料基于空军研究实验室和国防高级研究计划局根据协议号FA8750-16-2-0204赞助的研究。尽管上面有任何版权说明，但美国政府有权出于政府目的复制和分发再版。本文包含的观点和结论是作者的观点和结论，不应解释为必然代表空军研究实验室和国防高级研究计划局或美国政府的官方政策或认可，无论是明示或暗示。

【Reference】

[1] Deepfakes github. https://github.com/deepfakes/faceswap. Accessed: 2018-10-29. 1,2, 4, 14
[2] Faceswap. https://github.com/MarekKowalski/FaceSwap/. Accessed: 2018-10-29.1, 2
[3] Fakeapp. https://www.fakeapp.com/. Accessed:2018-09-01. 4
[4] Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, Paul Natsev, George Toderici, Balakrishnan Varadarajan, and Sudheendra Vijayanarasimhan. YouTube-8m: A large scale video classification benchmark. arXiv preprint arXiv:1609.08675, 2016. 12
[5] Darius Afchar, Vincent Nozick, Junichi Yamagishi, and Isao Echizen. Mesonet: a compact facial video forgery detection network. arXiv preprint arXiv:1809.00888, 2018. 3, 6, 7, 13, 14
[6] Irene Amerini, Lamberto Ballan, Roberto Caldelli, Alberto Del Bimbo, and Giuseppe Serra. A SIFT-based forensic method for copy-move attack detection and transformation recovery. IEEE Transactions on Information Forensics and Security, 6(3):1099–1110, Mar. 2011. 3
[7] Grigory Antipov, Moez Baccouche, and Jean-Luc Duge lay. Face aging with conditional generative adversarial net works. In IEEE International Conference on Image Process ing, 2017. 3
[8] Hadar Averbuch-Elor, Daniel Cohen-Or, Johannes Kopf, and Michael F. Cohen. Bringing portraits to life. ACM Transac tions on Graphics (Proceeding of SIGGRAPH Asia 2017), 36(4):to appear, 2017. 3
[9] Jawadul H. Bappy, Amit K. Roy-Chowdhury, Jason Bunk, Lakshmanan Nataraj, and B.S. Manjunath. Exploiting spatial structure for localizing manipulated image regions. In IEEE International Conference on Computer Vision, pages 4970– 4979, 2017. 3
[10] Belhassen Bayar and Matthew C. Stamm. A deep learning approach to universal image manipulation detection using a new convolutional layer. In ACM Workshop on Information Hiding and Multimedia Security, pages 5–10, 2016. 3, 6, 7, 13, 14
[11] Paolo Bestagini, Simone Milani, Marco Tagliasacchi, and Stefano Tubaro. Local tampering detection in video se quences. In IEEE International Workshop on Multimedia Signal Processing, pages 488–493, October 2013. 3
[12] Luca Bondi, Silvia Lameri, David Guera, Paolo Bestagini, ¨ Edward J. Delp, and Stefano Tubaro. Tampering Detection and Localization through Clustering of Camera-Based CNN Features. In IEEE Computer Vision and Pattern Recognition Workshops, 2017. 3
[13] Christoph Bregler, Michele Covell, and Malcolm Slaney. Video rewrite: Driving visual speech with audio. In 24th Annual Conference on Computer Graphics and Interactive Techniques, SIGGRAPH ’97, pages 353–360, 1997. 2
[14] Francois Chollet. Xception: Deep Learning with Depthwise Separable Convolutions. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 6, 7, 13, 14
[15] Valentina Conotter, Ecaterina Bodnari, Giulia Boato, and Hany Farid. Physiologically-based detection of computer generated faces in video. In IEEE International Conference on Image Processing, pages 1–5, Oct 2014. 3
[16] Davide Cozzolino, Diego Gragnaniello, and Luisa Verdo liva. Image forgery detection through residual-based local descriptors and block-matching. In IEEE International Con ference on Image Processing, pages 5297–5301, October 2014. 6
[17] Davide Cozzolino, Giovanni Poggi, and Luisa Verdoliva. Recasting residual-based local descriptors as convolutional neural networks: an application to image forgery detection. In ACM Workshop on Information Hiding and Multimedia Security, pages 1–6, 2017. 3, 6, 7, 13, 14 [18] Davide Cozzolino, Justus Thies, Andreas Rossler, Chris- ¨ tian Riess, Matthias Nießner, and Luisa Verdoliva. Foren sicTransfer: Weakly-supervised Domain Adaptation for Forgery Detection. arXiv preprint arXiv:1812.02510, 2018. 8
[19] Angela Dai, Angel X. Chang, Manolis Savva, Maciej Hal ber, Thomas Funkhouser, and Matthias Nießner. ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. In IEEE Computer Vision and Pattern Recognition, 2017. 8
[20] Kevin Dale, Kalyan Sunkavalli, Micah K. Johnson, Daniel Vlasic, Wojciech Matusik, and Hanspeter Pfister. Video face replacement. ACM Trans. Graph., 30(6):130:1–130:10, Dec. 2011. 2
[21] Luca D’Amiano, Davide Cozzolino, Giovanni Poggi, and Luisa Verdoliva. A PatchMatch-based Dense-field Algo rithm for Video Copy-Move Detection and Localization. IEEE Transactions on Circuits and Systems for Video Tech nology, in press, 2018. 3
[22] Duc-Tien Dang-Nguyen, Giulia Boato, and Francesco De Natale. Identify computer generated characters by analysing facial expressions variation. In IEEE International Work shop on Information Forensics and Security, pages 252–257, 2012. 3
[23] Tiago de Carvalho, Fabio A. Faria, Helio Pedrini, Ricardo da S. Torres, and Anderson Rocha. Illuminant-Based Trans formed Spaces for Image Forensics. IEEE Transactions on Information Forensics and Security, 11(4):720–733, 2016. 3
[24] Tiago de Carvalho, Christian Riess, Elli Angelopoulou, He lio Pedrini, and Anderson Rocha. Exposing digital image forgeries by illumination color classification. IEEE Trans actions on Information Forensics and Security, 8(7):1182– 1194, 2013. 3
[25] Xiangling Ding, Gaobo Yang, Ran Li, Lebing Zhang, Yue Li, and Xingming Sun. Identification of Motion-Compensated Frame Rate Up-Conversion Based on Residual Signal. IEEE Transactions on Circuits and Systems for Video Technology, in press, 2017. 3
[26] Hany Farid. Photo Forensics. The MIT Press, 2016. 3
[27] Jessica Fridrich and Jan Kodovsky. Rich Models for Ste- ´ ganalysis of Digital Images. IEEE Transactions on Informa tion Forensics and Security, 7(3):868–882, June 2012. 6, 7, 13
[28] Chris Frith. Role of facial expressions in social interactions. Philosophical Transactions of the Royal Society B: Biologi cal Sciences, 364(1535), Dec. 2009. 1
[29] Pablo Garrido, Levi Valgaerts, Ole Rehmsen, Thorsten Thor maehlen, Patrick Perez, and Christian Theobalt. Automatic ´ face reenactment. In IEEE Conference on Computer Vision and Pattern Recognition, pages 4217–4224, 2014. 2
[30] Pablo Garrido, Levi Valgaerts, Hamid Sarmadi, Ingmar Steiner, Kiran Varanasi, Patrick Perez, and Christian ´ Theobalt. Vdub: Modifying face video of actors for plau sible visual alignment to a dubbed audio track. Computer Graphics Forum, 34(2):193–204, 2015. 2
[31] A. Gironi, Marco Fontani, Tiziano Bianchi, Alessandro Piva, and Mauro Barni. A video forensic technique for detection frame deletion and insertion. In IEEE International Con ference on Acoustics, Speech and Signal Processing, pages 6226–6230, 2014. 3
[32] Haiying Guan, Mark Kozak, Eric Robertson, Yooyoung Lee, Amy N. Yates, Andrew Delgado, Daniel Zhou, Timothee Kheyrkhah, Jeff Smith, and Jonathan Fiscus. Mfc datasets: Large-scale benchmark datasets for media forensic challenge evaluation. In IEEE Winter Applications of Computer Vision Workshops, pages 63–72, Jan 2019. 3
[33] David Guera and Edward J. Delp. Deepfake video detection ¨ using recurrent neural networks. In IEEE International Con ference on Advanced Video and Signal Based Surveillance, 2018. 3
[34] Rui Huang, Shu Zhang, Tianyu Li, and Ran He. Beyond face rotation: Global and local perception GAN for photorealis tic and identity preserving frontal view synthesis. In IEEE International Conference on Computer Vision, 2017. 3
[35] Minyoung Huh, Andrew Liu, Andrew Owens, and Alexei A. Efros. Fighting fake news: Image splice detection via learned self-consistency. In European Conference on Com puter Vision, 2018. 3
[36] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adver sarial networks. CVPR, 2017. 5, 14
[37] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive Growing of GANs for Improved Quality, Stabil ity, and Variation. In International Conference on Learning Representations, 2018. 3
[38] Ali Khodabakhsh, Raghavendra Ramachandra, Kiran Raja, Pankaj Wasnik, and Christoph Busch. Fake face detection methods: Can they be generalized? In International Confer ence of the Biometrics Special Interest Group, 2018. 3
[39] Hyeongwoo Kim, Pablo Garrido, Ayush Tewari, Weipeng Xu, Justus Thies, Matthias Nießner, Patrick Perez, Chris- ´ tian Richardt, Michael Zollhofer, and Christian Theobalt. ¨ Deep Video Portraits. ACM Transactions on Graphics 2018 (TOG), 2018. 3, 5
[40] Davis E. King. Dlib-ml: A machine learning toolkit. Journal of Machine Learning Research, 10:1755–1758, 2009. 12
[41] Pavel Korshunov and Sebastien Marcel. Deepfakes: a new threat to face recognition? assessment and detection. arXiv preprint arXiv:1812.08685, 2018. 3
[42] Pawel Korus and Jiwu Huang. Multi-scale Analysis Strate gies in PRNU-based Tampering Localization. IEEE Transac tions on Information Forensics and Security, 12(4):809–824, Apr. 2017. 3
[43] Guillaume Lample, Neil Zeghidour, Nicolas Usunier, An toine Bordes, and Marc’Aurelio Ranzato Ludovic Denoyer. Fader networks: Manipulating images by sliding attributes. CoRR, abs/1706.00409, 2017. 3
[44] Yuezun Li, Ming-Ching Chang, and Siwei Lyu. In Ictu Oculi: Exposing AI Created Fake Videos by Detecting Eye Blinking. In IEEE WIFS, 2018. 3
[45] Chengjiang Long, Eric Smith, Arslan Basharat, and Anthony Hoogs. A C3D-based Convolutional Neural Network for Frame Dropping Detection in a Single Video Shot. In IEEE Computer Vision and Pattern Recognition Workshops, pages 1898–1906, 2017. 3
[46] Yongyi Lu, Yu-Wing Tai, and Chi-Keung Tang. Conditional cyclegan for attribute guided face image generation. In Eu ropean Conference on Computer Vision, 2018. 3
[47] Zhihe Lu, Zhihang Li, Jie Cao, Ran He, and Zhenan Sun. Recent progress of face image synthesis. In IAPR Asian Con ference on Pattern Recognition, 2017. 3 [48] Patrick Mullan, Davide Cozzolino, Luisa Verdoliva, and Christian Riess. Residual-based forensic comparison of video sequences. In IEEE International Conference on Im age Processing, 2017. 3
[49] Patrick Perez, Michel Gangnet, and Andrew Blake. Pois- ´ son image editing. ACM Transactions on graphics (TOG), 22(3):313–318, 2003. 4, 14
[50] Ramachandra Raghavendra, Kiran B. Raja, Sushma Venkatesh, and Christoph Busch. Transferable Deep-CNN features for detecting digital and print-scanned morphed face images. In IEEE Computer Vision and Pattern Recognition Workshops, 2017. 3
[51] Nicolas Rahmouni, Vincent Nozick, Junichi Yamagishi, and Isao Echizen. Distinguishing computer graphics from nat ural images using convolution neural networks. In IEEE Workshop on Information Forensics and Security, pages 1–6, 2017. 3, 6, 7, 13, 14
[52] Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Chris- ¨ tian Riess, Justus Thies, and Matthias Nießner. FaceForen sics: A large-scale video dataset for forgery detection in hu man faces. arXiv, 2018. 3 [53] Husrev T. Sencar and Nasir Memon. Digital Image Forensics — There is More to a Picture than Meets the Eye. Springer, 2013. 3
[54] Wenzhe Shi, Jose Caballero, Ferenc Huszar, Johannes Totz, ´ Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In IEEE Conference on Computer Vision and Pattern Recogni tion, pages 1874–1883, 2016. 14
[55] Supasorn Suwajanakorn, Steven M. Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing Obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4), 2017. 1, 3 [56] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. 2017. 6
[57] Justus Thies, Michael Zollhofer, and Matthias Nießner. De- ¨ ferred neural rendering: Image synthesis using neural tex tures. ACM Transactions on Graphics 2019 (TOG), 2019. 1, 2, 3, 4, 14
[58] Justus Thies, Michael Zollhofer, Matthias Nießner, Levi Val- ¨ gaerts, Marc Stamminger, and Christian Theobalt. Real-time expression transfer for facial reenactment. ACM Transac tions on Graphics (TOG) - Proceedings of ACM SIGGRAPH Asia 2015, 34(6):Art. No. 183, 2015. 2
[59] Justus Thies, Michael Zollhofer, Marc Stamminger, Chris- ¨ tian Theobalt, and Matthias Nießner. Face2Face: Real-Time Face Capture and Reenactment of RGB Videos. In IEEE Conference on Computer Vision and Pattern Recognition, pages 2387–2395, June 2016. 1, 2, 3, 4, 5, 12
[60] Justus Thies, Michael Zollhofer, Marc Stamminger, Chris- ¨ tian Theobalt, and Matthias Nießner. FaceVR: Real-Time Gaze-Aware Facial Reenactment in Virtual Reality. ACM Transactions on Graphics (TOG), 2018. 3
[61] Justus Thies, Michael Zollhofer, Christian Theobalt, Marc ¨ Stamminger, and Matthias Nießner. Headon: Real-time reenactment of human portrait videos. arXiv preprint arXiv:1805.11729, 2018. 3
[62] Paul Upchurch, Jacob Gardner, Geoff Pleiss, Robert Pless, Noah Snavely, Kavita Bala, and Kilian Weinberger. Deep feature interpolation for image content changes. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 3
[63] Weihong Wang and Hany Farid. Exposing Digital Forgeries in Interlaced and Deinterlaced Video. IEEE Transactions on Information Forensics and Security, 2(3):438–449, 2007. 3
[64] Markos Zampoglou, Symeon Papadopoulos, , and Yiannis Kompatsiaris. Detecting image splicing in the wild (Web). In IEEE International Conference on Multimedia & Expo Workshops (ICMEW), 2015. 3
[65] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, and Yu Qiao. Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Processing Letters, 23(10):1499–1503, Oct 2016. 14
[66] Peng Zhou, Xintong Han, Vlad I. Morariu, and Larry S. Davis. Two-stream neural networks for tampered face de tection. In IEEE Computer Vision and Pattern Recognition Workshops, pages 1831–1839, 2017. 3
[67] Peng Zhou, Xintong Han, Vlad I. Morariu, and Larry S. Davis. Learning rich features for image manipulation de tection. In CVPR, 2018. 3
[68] Michael Zollhofer, Justus Thies, Darek Bradley, Pablo ¨ Garrido, Thabo Beeler, Patrick Peerez, Marc Stamminger, ´ Matthias Nießner, and Christian Theobalt. State of the art on monocular 3d face reconstruction, tracking, and applica tions. Computer Graphics Forum, 37(2):523–550, 2018. 1, 2

在这里插入图片描述

图9：自动面部编辑工具依赖于在目标视频中追踪面部的能力。最先进的跟踪方法，如Thies等。 [59]在面部轮廓图像的情况下失败（左）。旋转大于45°（中）和遮挡（右）会导致跟踪错误。

在这里插入图片描述
表3：每种操作方法的图像数量。 DeepFakes处理目标序列的每一帧，而FaceSwap和NeuralTextures仅处理源视频和目标视频中的最小帧数。但是，Face2Face将所有源表达式映射到目标序列，并在必要时倒回目标视频。由于在我们的操纵方法的各个面部跟踪模块中的未命中检测，操纵帧的数量可能会有所不同。

Appendix

在FaceForensics ++中，我们使用由四种不同的面部操作方法生成的大规模数据集来评估最新的面部操作检测方法的性能。此外，我们提出了一个自动基准测试，以比较未来的检测方法以及它们与未知后处理操作（例如压缩）的鲁棒性。该补充文件报告了有关原始数据采集的详细信息（附录A），以确保合适的输入顺序。附录B列出了主要论文中我们的二元分类实验的确切数目。除了二进制分类，数据库对于评估操作分类也很有趣（附录C）。在附录D中，我们列出了所有选择的操纵方法和检测技术的超参数。

A. Pristine Data Acquisition

在现实情况下，我们选择野外采集视频，更具体地说是从YouTube采集视频。所有操作方法的早期实验表明，原始视频必须满足某些条件。目标面必须接近正面且没有遮挡，以防止方法失败或产生强烈的伪影（见图9）。我们使用YouTube-8m数据集[4]来收集带有“ face”，“ newscaster”或“ newsprogram”标签的视频，还包括从YouTube搜索界面中获得的具有相同标签和“ interview”等其他标签的视频，“博客”或“视频博客”。为了确保足够的视频质量，我们仅下载了分辨率为480p或更高的视频。对于每个视频，我们将保存其元数据，以便以后按属性对其进行排序。为了满足上述要求，我们首先使用Dlib人脸检测器[40]处理所有下载的视频，该检测器基于定向梯度直方图（HOG）。在此步骤中，我们通过确保连续帧的两次检测的中心在像素方向上接近来跟踪最大的检测到的人脸。选择基于直方图的面部跟踪器以确保生成的视频序列几乎没有遮挡，因此包含易于操作的面部。

除了FaceSwap，所有方法都需要在目标序列上进行足够大的图像训练。我们选择至少280帧的序列。为了确保高质量的视频选择并避免视频被面部遮挡，我们对剪辑进行了手动筛选，结果产生了包含509个视频的1,000个视频序列，509914张图片。

所有检查过的操纵方法都需要一个源和一个目标视频。在面部重现的情况下，源视频的表达式会转移到目标视频，同时保留目标人物的身份。相反，面部交换方法将目标视频中的面部替换为源视频中的面部。为了确保高质量的人脸交换，我们选择具有相似大脸（考虑DLib检测到的边框大小），相同性别的人和相似视频帧率的视频对。

表3列出了所有操作方法和原始数据的数据集的最终编号。

B. Forgery Detection

在本节中，我们列出了主要论文图表中的所有数字。表4显示了特定于操作的伪造检测器的准确性（即，对检测器进行了相应的操作方法训练）。相反，表5显示了在整个FaceForensics ++数据集上训练的伪造检测器的准确性。在表6中，我们显示了大型数据库的重要性。我们的用户研究编号在表7中列出，包括用于检查图像的方式。

在这里插入图片描述

表4：特定于操作的伪造检测器的准确性。我们显示了所有四种操作方法（DF：DeepFakes，F2F：Face2Face，FS：FaceSwap和NT：NeuralTextures）的原始数据集和压缩数据集的结果。在这里插入图片描述

表5：一次接受所有操作方法训练并根据特定操作方法或原始数据进行评估时的检测准确性（DF：DeepFakes，F2F：Face2Face，FS：FaceSwap，NT：NeuralTextures和P：Pristine）。平均精度在主文件中列出。

在这里插入图片描述
表6：训练语料库大小的分析。数字反映了在单一和所有操作方法（DF：DeepFakes，F2F：Face2Face，FS：FaceSwap，NT：NeuralTextures和All：所有操作方法）上训练过的XceptionNet检测器的准确性。

在这里插入图片描述

表7：用户研究结果用于观看图像的设备（DF：DeepFakes，F2F：Face2Face，FS：FaceSwap，NT：NeuralTextures和P：Pristine）。 99名参与者使用了PC，105名使用了手机。

C. Classification of Manipulation Method

为了训练XceptionNet分类网络以区分所有四种操作方法和原始图像，我们调整了最终输出层以返回五个类概率。在包含所有原始图像和操纵图像的完整数据集上训练网络。在原始数据上，网络能够实现99：03％的精度，对于高质量压缩，该精度会略有下降，对于低质量图像，精度会降低到95：42％和80：49％。

D. Hyperparameters

为了重现性，我们在主要论文中详细介绍了用于该方法的超参数。我们将这一部分分为两部分，一部分用于操纵方法，第二部分用于伪造检测的分类方法。

D.1. Manipulation Methods

DeepFakes和NeuralTextures是基于学习的，对于其他操纵方法，我们使用了这些方法的默认参数。

DeepFakes：

我们的DeepFakes实现是基于deepfakes facewap github项目[1]的。 MTCNN（[65]）用于提取和对齐每个视频的图像。具体而言，在整个视频中检测并跟踪序列第一帧中的最大脸孔。此跟踪信息用于提取DeepFakes的训练数据。自动编码器拍摄的输入图像为64（默认）。它使用由四个卷积层组成的共享编码器，该卷积层将图像缩小为4×4的瓶颈，在此我们将输入变平，应用完全连接的层，对密集层进行整形并使用卷积层以及像素混洗层（请参见[54]）。两个解码器使用三个相同的放大层来获得完整的输入图像分辨率。所有图层都使用Leaky ReLus作为非线性。该网络使用Adam进行训练，学习率为10-5，β1= 0：5和β2= 0：999，批处理大小为64。在我们的实验中，我们在云平台上进行了200000次迭代的训练。通过将一个人的解码器交换给另一个人，我们可以生成一个身份交换的面部区域。为了将人脸插入目标图像中，我们选择了泊松图像编辑[49]以实现无缝融合效果。

NeuralTextures：

NeuralTextures基于U-Net结构。对于数据生成，我们采用原始的管道和网络体系结构（有关详细信息，请参见[57]）。除了光度一致性外，我们还增加了广告损失。这种对抗性损失基于Pix2Pix [36]中使用的基于补丁的鉴别器。在训练过程中，我们将光度损失加权为1，将对抗损失加权为0：001。我们使用Adam优化器（具有默认设置）针对固定的45个时期针对每次操作训练三个模型，并根据视觉质量手动选择效果最佳的模型。与原始纸张一样，所有操作的创建分辨率均为512×512，纹理分辨率为512×512，每纹理像素16个特征。代替使用整个图像，我们仅训练和修改包含面部边界框的裁剪图像，即使在较高分辨率的图像上也要确保高分辨率输出。为此，我们将Face2Face跟踪器获得的边界框扩大1：8。

D.2. Classification Methods

对于本文提出的伪造检测流程，我们基于卷积神经网络对五种分类方法进行了研究。使用Adam优化器对网络进行训练，并使用不同的参数来提高学习率和批量大小。特别是对于在Cozzolino等人中提出的网络。 [17]使用的学习率是10-5，批量大小为16。对于Bayar和Stamm [10]的建议，我们使用的学习率等于10-5，批量大小为64。网络 Rahmouni [51]提出的建议以10-4的学习率和等于64的批处理量进行训练。MesoNet[5]使用76的批处理量并将学习率设置为10-3。我们基于XceptionNet [14]的方法的学习率为0.0002，批处理大小为32。所有检测方法均由Adam优化器使用矩的默认值（β1= 0：9， β2= 0：999，ε= 10-8）。

如果每次10次连续检查的验证准确性均未改变，我们将计算每个周期的验证准确性十次，并停止训练过程。验证和测试精度是针对每个视频100张图像计算的，培训针对每个视频270张图像进行评估，以解决我们视频中帧数的不平衡情况。最后，我们通过相应地权衡训练图像来解决二元任务中真实图像与伪图像之间的不平衡（即伪图像的数量大约是原始图像数量的四倍）。