On the Generality of Facial Forgery Detection论文原文翻译以及阅读笔记

论文题目及原文地址:On the Generality of Facial Forgery Detection

2019IEEE第16届移动特设和传感器系统研讨会国际会议

摘要:

摘要-针对面部伪造检测的任务,设计或重新设计了多种结构。 虽然其中许多设计都取得了巨大成功,但它们在很大程度上未能应对这些模型在实践中可能面临的挑战。 一个主要的挑战是通用性,其中模型必须准备在各种领域执行。 在本文中,我们研究了最先进的面部伪造检测体系结构的推广能力。 我们首先提出了两个通用性标准:可靠地检测多个欺骗技术和可靠地检测看不见的欺骗技术。 然后,我们设计了一些实验来测量给定的体系结构如何根据这些标准执行。 我们的分析集中在两种最先进的面部伪造检测体系结构,MesoNet和XceptionNet,两者都是卷积神经网络(CNN)。 我们的实验使用了六种最先进的面部伪造技术的样本:Deepfakes、Face2Face、FaceSwap、GANNotation、ICFace和X2Face。 我们发现MesoNet和XceptionNet显示了推广到多种欺骗技术的潜力, 但在准确性上略有权衡,在很大程度上失败对于unseen technology 。 我们将这些结果松散地外推到类似的CNN架构中,并强调需要更好的架构来满足通用性的挑战。
索引术语-CNN,面部伪造检测,图像伪造检测,视频流

引言

  • 在线视频流已经成为世界上大部分人口交流和信息的一个不可或缺的渠道。 视频流网站,如YouTube和Vimeo发现自己在这个巨大的交换中心。 就在最近的2019年5月,YouTube每月达到20亿人的用户群,超过世界人口[1]的四分之一。 这些网站不仅是娱乐,也是了解世界的一个不可或缺的手段。在2016年,一项调查发现,62%的美国成年人从社交媒体[2]获得他们的新闻,这一数字很可能反映在其他技术先进的国家。 最近,被称为“深度假货”的现象对数字视频的可信度提出了重大挑战。 “deep fakes”一词通常指的是人工智能技术,它可以令人信服地操纵面部,这样一个人就可以被要求似乎他们在说或做他们从未做过的事情。美国众议院情报委员会(US House IntelligenceCommittee)最近举行了一次听证会,讨论深假[3]对国家安全的担忧。

  • 讨论集中在“虚假信息战争”的概念上,这是一种新的网络战争形式,在这种战争中,欺骗的视频可能被用来干扰选举和扰乱市场,进而削弱公众对新闻和媒体的信任。 在政治格局之外,“虚拟影响者”的崛起暗示着潜在的深度假货被用来误导消费者[4]。 这些计算机生成的模型正被用来推销产品,因为它们从看似真实的人中获得了关注。 正如FaceSwap[5]、Deep Face实验室[6]和Deepfakes应用程序[7]演示的那样,操纵和欺骗人脸的工具在可用性、易用性和可信度方面都在增加。 需要开发工具来帮助社交媒体网站和个人从假面孔中辨别真实面孔,这一点越来越重要。

  • 在本文中,我们正在研究建立在CNN上的伪造检测技术。 CNN是用来模拟视觉皮层的专门神经网络,广泛用于图像分析。 特别是,我们正在研究CNN作为简单的二进制分类器,为给定的图像或视频输出一个简单的“真实”或“假”标识。 这些二进制分类器可以被认为包含两个部分,一个特征提取器和一个分类器,如图所示。 1. 对特征提取器进行训练,从输入图像中提取特征,然后由分类器用于确定图像是真实的还是假的。

  • 在这里插入图片描述

  • 提出了一系列结构,用于面部伪造检测[8][9][22][21][20]。 他们的分析中很少提到或很少提到的是他们同时检测多个欺骗技术的能力和检测看不见的技术的能力。 我们把这称为一般性问题。 我们的分析集中在两个CNN,XceptionNet[8]和MesoNet[9]。 这些网络已经被证明在面部伪造检测[10]中优于其他类似的CNN,因此我们将它们的行为视为类似架构的典范。 我们的培训和测试集将包括由Deepfakes[7]、Face2Face[11]、Face Swap[5]、GANNotation[12]、IC Face[13]和X2Face[14]的伪造方法生成的假脸。 选择这些技术是因为它们代表了各种面部欺骗方法的最新技术。

  • 我们进行了三个实验来确定MesoNet和Xception网的推广潜力。 对于这些实验,我们扩展了人脸取证数据集[10]。 除了用于Deepfakes、Face2Face和FaceSwap的视频样本外,我们还生成了具有GANnotation、ICFace和X2Face的类似序列。 我们的第一个实验寻找相似的特征提取的模型训练不同类别的假面孔。 我们发现,虽然大多数类共享识别特征,但它们具有独特的特征,这是提高检测精度所必需的,对通用性提出了相当大的挑战。 我们的第二个实验研究了MesoNet和XceptionNet如何在看不见的数据上执行。 这两种方法在看不见的伪造技术上的表现都很差,在将多个类组合在一起时,只会有轻微的改进。

  • 我们的贡献如下:

    • ·提出了一个新的假脸视频数据集,该数据集是由GANNotation、ICFace和X2Face的生成对抗性网络(GANs)生成的。
    • 证明简单的CNN二进制分类器用于面部伪造检测,当在多个伪造技术上训练时,性能会下降。
    • 显示简单的CNN二进制分类器用于面部伪造检测方法,对看不见的伪造技术表现不佳。
  • 论文的其余部分组织如下:第二节提供了几种面部伪造和检测方法的初步知识。 第三节描述了三个实验,然后在第四节中解释了我们的数据集。 我们实验的每一步都在第五节中描述,并在第六节中讨论了结果。 最后,第七节和第八节讨论了相关的和未来的工作,我们在第九节中得出了结论。

准备工作

A.面部伪造方法

我们区分两类面部伪造。 这里的“源”和“目标”是指视频或图像中的人脸,其中源包含将转移到目标的特征:

 - 面部交换-将面部从源头转移到目标上,保持目标的面部表情和姿态(见图。 2b)。 
 - 面部再现-将源的面部表情或姿态转移到目标上,保持目标的身份(见图。 2a)。
  • “深度假货”一词被通俗地用来指利用深度学习的广泛的面部交换技术。 然而,在本文的范围内,Deepfakes[7]指的是特定的人脸交换应用。 这种基于AI的技术训练一个模型来重建一个源和目标人脸的图像,然后将模型中重建源的脸的部分应用于目标的脸进行人脸交换。 另一方面,脸交换[5]是一种更传统的基于图形的脸交换方法。 它使用面部地标来拟合源脸的三维人脸模型,然后与目标的脸对齐,并与原始图像混合。 Face2Face[11]是一种基于图形的面部重构方法。 它构造了一个源面的三维模型,然后与目标的脸和传输的表达式对齐。 为了创建视频,这些过程只是逐帧重复。
  • 最近一种面部再造的方法是使用GANS[15]。 一般的方法是训练生成器网络来修改源脸以匹配目标的面部属性,反过来训练鉴别器网络来区分真实的脸和假的脸。 通过让这些模型竞争,生成模型接近真实感的结果。 这两种方法,GANnotation[12]和IC Face[13],通过从源图像中提取面部属性-如面部地标、头部姿态或动作单元[16]-并将它们转移到目标图像中来工作。 另一种基于GAN的方法X2Face[14]使用任意驱动向量来控制目标面。 这个驱动向量可以是任何东西,从音频到相同的面部属性,用于GANNotation和ICFace。
    B.面部伪造检测
  • 本文的分析仅限于CNN结构,CNN结构执行将人脸的个别图像分类为真实或假的单一任务。 还有其他架构[23]执行多个任务,设计来适应新的问题域[22],或者查看整个视频而不是单帧[24]。 但我们的分析仅限于上述类型的体系结构,因为它们比它们更复杂和更专业的对应结构更普遍,使我们能够得出更显著的比较。 其中一个这样的架构,MesoNet,由Afchar等人提出。 [9]是指专门为面部伪造检测而设计的两个CNN。 它们的目的是通过聚焦图像的介观特性来克服视频压缩带来的数据退化。 我们正在关注MesoNet的第二个网络MesoInception-4,它使用一个不同的Inception模块[17]来增加模型可以提取的特征范围。 XceptionNet由Chollet提出[8]是一种从Inception体系结构派生出来的通用图像分类网络。 其中,Inception模块已被深度可分离卷积所取代,以达到类似的效果。 XceptionNet已被Rossler¨等人应用于面部伪造检测。 除了他们的人脸取证[18]和人脸取证[10]数据集,它已经被证明优于MesoNet 。

III. OVERVIEW

A. 对抗模型

  • 在我们的对抗模型中,恶意用户的目的是使用面部伪造来创建视频,其中受害者似乎在说或做他们没有做的事情。 然后,这段视频被呈现给一群毫无戒心的观众,目的是传播关于受害者的虚假信息。 我们假设:1)攻击者有足够的受害者面部数据来创建令人信服的假视频;2)攻击者有足够的时间和资源来生成假视频;3)假视频的观众无法在视觉上识别为假视频。 这提供了一个场景,观众将相信欺骗视频的内容是真实的,如果没有帮助。 面部伪造检测的目的是将攻击者的视频与真实视频区分开来。

B、实验配置

  • 我们设计了三组实验来确定MesoNet和XceptionNet的通用性,进而推断出类似体系结构的通用性。 通过我们的实验,我们将探索属性,我们将称为特征重叠和可转移性。 当一类假图像的特征提取器被发现提取可以用来识别另一类假货的特征时,我们说原始类与第二类有特征重叠。 可转移性是指模型在它还没有被训练过的假类上表现得如何。 这两种性质被认为是不同的范围从低到高。
    • 1)特征重叠:为了推广模型,它们的特征提取器必须能够提取多种伪造技术的识别特征。 为此,我们研究了类之间有多少特征重叠。 更具体地说,我们在预先训练的MesoNet和XceptionNet模型上使用迁移学习,其中我们在另一个假类上重新训练一个假类的模型,而不修改它们的特征提取器。 这些新模型对它们的新假类的性能将告诉我们,为原始假类提取的特征与未见类有多大的重叠’。 我们特别感兴趣的是特征重叠的属性和MesoNet和XceptionNet的总体特征重叠程度,以及它们的不同之处。
    • 2)可转移性:我们还想看看MesoNet和XceptionNet在未见的方法上的性能如何,因为我们不能依赖于对所有攻击者方法的了解。 我们最感兴趣的是MesoNet和Xception的总体可转移性以及它们的不同之处。

四、数据集

  • 对于我们的数据集,我们扩展了基于GAN的重构技术GANNotation、ICFace和X2Face的人脸取证[10]。 原始数据集由1000个原始视频序列和3000个被Face2Face、Deepfakes和FaceSwap操纵的视频,这些视频是预定义的培训、测试和验证分割。 所有原始序列和操纵序列都是使用H.264编解码器在三个级别上提供的,量化为0、23和40,我们将分别称为无损、明显无损和有损。 使用相同的来源和目标,我们生成了3000个额外的视频与GANnotation,ICface和X2Face及其压缩对应。 对于所有7000个视频和所有三个层次的压缩,我们每30帧提取一张人脸的裁剪图像。 总共提取了293,975个图像样本。

实验

  • 我们所有的模型都是用ADAM优化器训练的[19]学习率为0.001,贝塔为0.9和0.999,epsilon为107,并使用所有三个压缩级别的样本。
    - a. 特征重叠

    • 我们从MesoInception-4和Xception模型开始,对所有压缩级别的单一面部伪造技术进行了训练。 对于每个模型,我们冻结它们的卷积层,重置它们的分类层中的神经元,并在另一个伪造类中对所有类组合进行重新训练。 为了测量新模型的性能,我们设计了特征重叠系数,
      在这里插入图片描述
  • 其中x是特征提取器所属的类,y是转移到的类,Zx是具有原始模型的x类的真实检测率,Zy是具有再训练模型的y类的真实检测率。 我们假设较高的f值表示x与y的特征重叠程度较高,其中1或更大的值是理想的。 我们得到的系数在图中绘制。4a for MesoInception-4 and 4b for Xception,其中行对应于从类传输的类,列对应于传输到的类。

B.可转移性

  • 在本实验中,我们训练了MesoInception-4和Xception模型的不同组合假类,然后对所有类进行测试。 当在两个或两个以上的假课程上进行培训时,真实样本和假样本之间存在相当大的不平衡。 为了解决这一问题,我们使用了损失函数,分别用实际和假样本总数的倒数来衡量每个真实和假样本。 结果的精度如图所示 图5和图 6. 对未见类的更高精度表示更高的可转移性。

六、讨论

A、特征重叠
-比较 MesoInception-4 与Xception在图4,我们看到MesoInception-4有更多的特征重叠。 这告诉我们,不同体系结构的特征重叠程度并不一致。 同样,我们看到类之间不同程度的特征重叠。 例如,对于MesoInception-4,DeepFakes到ICFace的特征重叠比DeepFakes到X2Face的特征重叠更多,而Xception则相反。 为了突出特征重叠的一些重要性质,我们利用Venn图在图3中可视化了MesoInception-4的几个特征重叠关系。 从图3中的一个重要结论就是虽然像GANnotation和ICface这样的类完全包含在Deepfakes的特征中,但事实并非如此。 特征重叠很少是一对一的关系。我们分析的一个重要限制如图3b。 虽然我们可以确定Deepfakes和Face2Face、Deepfakes和FaceSwap以及Face2Face和FaceSwap之间有共享的特征,但我们无法确定这三种共享的特征的程度。 这种未知的三方关系是阴影黑色。 我们不能期望不同体系结构之间的特征重叠关系是完全一致的,有些类比其他类具有更多的特征重叠。 MesoInception-4和Xception的不同假类特征重叠程度的不一致表明,它们将难以推广到多种面部伪造技术。
在这里插入图片描述
B、可转移性

  • B.可转移性首先看MesoInception-4 模型在图5中。 我们看到,可转移性非常低。 很少有看不见的类达到20%以上的精度,而GANNOTION是唯一实现体面的看不见的精度的类。 增加所训练的类的数量似乎确实增加了可转移性。 但这是以降低实际检测率为代价的。 在图6中查看我们的Xception结果。 我们看到可转移性更低。 与MesoInception-4一样,Xception的可转移性随着我们在更多类上的训练而增加,但以牺牲实际检测精度为代价。 总的来说,MesoInception-4和Xception对看不见的面部伪造技术的表现都很差。
    在这里插入图片描述

7、相关工作

  • 一些模仿MesoInception-4和Xception的基本CNN结构的体系结构如图1所示。 Rahmouni等人提出了一种用于图像伪造检测的方法, [20]使用“补丁分类”来区分照片真实的计算机图形和自然图像。 他们把一张照片分成几块,并根据每一块子块的真假概率得出最终的结论。 巴亚尔和斯塔姆[21]提出了一种CNN,用于忽略图像内容的一般图像伪造检测。 他们的目标是集中在像素与像素之间的关系上,将工件与不同的伪造技术区分开来。 这些网络对Deepfakes−Face2Face和Face Swap[10]的准确率分别为44%、70%和68。 与这些网络相反,最近的几种CNN架构扩展了基本的特征提取和分类结构。 Cozzolino等人提出的ForensicTransfer[22]利用迁移学习来提高可迁移性。 只要有几个未见伪造技术的样本,网络就可以重新训练去有效的分类。Nguyen等人[23]提出了一种多任务学习,它既检测面部伪造,又同时分割图像的操纵区域。 这些任务通过共享信息,目的是提高整体性能和可转移性。 Sabir等人。 [24]提出了一个递归网络,它利用视频中的时间信息,而不是孤立地查看单帧。
    在这里插入图片描述

9、未来的工作

  • 类似的实验可以在更先进的卷积结构上进行,如ForensicTransfer[22]或Nguyen等人[23]。 虽然这些检测方法是为了适应可转移性而设计的,但更深入的分析可以揭示它们的方法为什么成功,以及它们需要改进的地方。 我们的发现也可用于为创建更通用的模型或反检测工作提供信息。 最后,探索更有效的体系结构以及改进的运行时间如何与通用性相关,可以使用与我们类似的分析。 设计既有效又通用的面部伪造检测模型对于处理视频流站点上的大量数据流以及与消费者设备集成都是至关重要的。

10、总结

  • 本文分析了人脸伪造检测的泛化能力。 我们研究了两种最先进的CNN结构,用于检测面部伪造,MesoNet和Xception,以及它们的泛化能力。 我们设计了定量的方法来确定不同技术训练的模型之间的特征相似(和不同)和测量可转移性。 通过这些方法,我们发现这两种体系结构都能够在不同的压缩级别上实现一致的精度,而在精度上没有明显的牺牲,但在对未见数据进行测试时很大程度上失败了。 虽然这种类型的网络显示出推广的潜力,但它们最终无法准确和可靠地检测到未见的方法。 我们必须探索新的架构,以实现真正的一般面部伪造检测。

11、致谢

  • 这项工作得到了国家自然科学基金资助CNS-1757533的支持,作为本科生研究经验的一部分。 坦普尔大学在智能健康、安全和幸福REU的普适计算期间促进了研究。

文章看完了,并没有讲多少东西。主要就是针对MesoNet和Xception做了一些实验,提出了特征重叠和可转移性两个概念。文章中应该有一处错误在Fig5处。
比较难懂的地方就是图5和图6的理解上,现在还没看太懂,等以后再说吧,就这样。
2020.10.22.15:34

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值