【论文阅读】Anti-Forgery: Towards a Stealthy and Robust DeepFake Disruption Attack viaAdversarial Percept

本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文。

论文标题:Anti-Forgery: Towards a Stealthy and Robust DeepFake Disruption Attack via Adversarial Perceptual-aware Perturbations

作者:Run Wang1,2, Ziheng Huang1,2, Zhikai Chen3, Li Liu4 , Jing Chen1,2, Lina Wang1,2,5; 

  1. School of Cyber Science and Engineering, Wuhan University, China;
  2. Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education,China;
  3. Tencent Zhuque Lab;
  4. Fudan Development Institute, Fudan University, China;
  5. Zhengzhou Xinda Institute of Advanced Technology;

发表地点:IJCAI 2022;

论文下载链接https://arxiv.org/abs/2206.00477v1

代码链接GitHub - AbstractTeen/AntiForgery

摘要

深度造假(DeepFake)正成为社会的真实风险,并且给个人隐私和政治安全带来潜在的威胁,因为深度伪造的多媒体信息非常真实且容易让人相信(realistic and convincing)。

然而,现有的被动型深度造假检测器(passive DeepFake detection)是一种事后的(ex-post)应对措施,无法提前阻止虚假信息的传播。

为了解决上述问题,研究者们探索了主动型(proactive)的防御技术来打断deepfake的篡改,通过向原始数据(source data)添加对抗噪声(adversarial noises)。但是最近的研究MagDR指出,现有的添加对抗噪声的主动型deepfake防御方法不够鲁棒,通过采用简单的图像重构(image reconstruction)就可以绕开这些噪声。

因此,本文探索了现有造假技术的弱点,并提出了anti-forgery技术来帮助用户保护他们的脸部图像,以免受到造假者的攻击。

本文提出的方法以一种不间断的方式(incessant manner)生成感知敏感的扰动(perceptual-aware perturbations),与之前的添加稀疏对抗噪声的工作非常不同。实验表明本文的感知敏感的扰动对不同的图像变换是鲁棒的,尤其是对MagDR[1]的通过图像重构的竞争规避技术。本文的发现为保护脸部图像对抗DeepFake开辟了一个新的研究方向,以一种主动和鲁棒的方式,深入理解和探索感知敏感的对抗攻击。

本文动机及现有方法的问题:

  • 随着GAN在图像合成(image synthesis),细粒度图像篡改(fine-grained image manipulation)方面的进展,DeepFake也飞速发展。DeepFake就是攻击者利用GAN生成逼真自然的合成图像,音频或者视频,这些合成的东西给个人隐私和安全带来了很大的威胁。因此,急需有效的对抗DeepFake手段。
  • 现有对抗DeepFake的措施可分为被动型(passive)和主动型(proactive),但是它们都还处于早期探索阶段,没有发展地很成熟。
  • 被动型方法是一种事后(ex-post)的防御方式,只能判断一个合成的DeepFake是真是假。更重要的是,现有的该类方法对于以未知手段合成的DeepFake是很难处理的(比如不是用GAN-based方法合成的DeepFake)。
  • 因此,研究者们开始探索主动型防御技术,通过向原始图像(source image)添加对抗噪声来打断DeepFake的生成过程。但是现有的添加对抗噪声的主动型防御技术很难应对不同的输入变换(input transformations),而且很容易被检测出来并且被消除,因此限制了这些技术的实际应用。
  • 现有主动型防御技术在针对4种主要的DeepFake攻击(entire synthesisattribute editing,  dentity swap, and face reenactment)方面的有效性尚不清楚,许多防御技术只能针对某1,2种DeepFake攻击,因此不够实用。

被动型,主动型概念补充:

这一部分在文章第3章 Problem Statement介绍,可以先看这个再看文章,理解了这两个概念才能看明白本文到底说的是什么。

以用户A发布一个推文为例,该推文有一张A自己的脸部图像 S,DeepFake的攻击过程可能为:

  1. 用户A将图像 S 发布到推特上;
  2. DeepFake攻击者看到了图像 S,使用GAN-based DeepFake模型对其进行恶意篡改(比如丑化等),然后将篡改后的图像 F 发布在推特上;
  3. 其他不知情的用户看到了篡改后的图像 F 以为是用户A的真实照片(损害了用户A的权益)。

被动型DeepFake防御方法:对已经被攻击者合成好的DeepFake内容(比如image,audio,video等),被动型防御方法仅能够检测这些内容是真是假。

比如上述例子中的篡改后图像 F,被动型方法在第2步之后,发现了 F 并判断出 F 是DeepFake,于是阻止它的进一步传播。但是该图像 F已经在网上传播了一段时间,并且损害了用户A的权益。

主动型DeepFake防御方法:通过向原始图像添加某些特征,来打断DeepFake的生成过程。

比如上述例子中,用户在发布图像 S 之前,使用主动型防御方法作用于图像 S ,得到防御性图像 S+(该防御性图像在视觉上与 S 一样,人眼无法看出区别)。然后用户将 S+ 发布到推特上(这种情况下,在网上传播的用户脸部图像只有 S+, 没有原始图像 S )。

DeepFake的攻击者想要恶意篡改图像 S+,于是将GAN-based DeepFake模型作用于 S+,结果无法生成逼真的篡改后的图像(S+中添加的某些特征,导致DeepFake模型失效),生成出来的图像人们一眼就能看出是假的。

因此,DeepFake攻击者无法恶意篡改用户A的脸部图像,也无法传播篡改后的图像。该类主动型的方法能够有效阻止DeepFake内容的传播,从源头上解决了DeepFake问题。

本文主要贡献

  • 本文提出了anti-forgery方法,通过添加对抗感知敏感的扰动,以一种主动的方式应对DeepFake问题。与以前的主动型方法(它们向原始图像中添加无意义且稀疏的噪声)相比,本文方法使用连续自然的方式转换脸部图像,对于不同的输入转换更加鲁棒(也就是能应对各种DeepFake的操作)。
  • 本文采用了一种简单有效的方法生成感知敏感的扰动,能生成视觉上自然的脸部图像(就是让防御性图像 S+ 更真实,不会破坏原始图像的视觉特性),同时能够对抗和打断DeepFake的攻击(就是让S+包含一些特征,能够使DeepFake失效)。
  • 本文对三类DeepFake技术都进行了实验,来证明本文方法确实使DeepFake之后的内容有明显的假的特征(noticeable artifacts),并且能够在input reconstruction下仍然有效,具有鲁棒性。
  • 本文的研究发现为DeepFake的防御开启了一个新的研究方向,通过探索针对不同变换的自然的鲁棒性的扰动,来实施感知敏感的对抗攻击。作者希望能有更多的研究来探索GAN在图像合成方面的弱点,以此来发展主动型对抗DeepFake的方法。

本文模型及方法

由于主动型模型相当于是给原始图像加了一层保护(个人理解),所以本文提出主动型模型create出的image应该满足下面条件:

  • 视觉上对于人类和真实image没有区别,因为不能影响正常的image功能;
  • 能够应对输入变换,因为攻击者会对image进行多种变换处理再DeepFake它;
  • 可以应对多种类型的deepfake生成器,因为攻击方式多样。

4.2 对抗攻击

给定输入图像x,\theta是本文添加的扰动,\tilde{x}是添加了扰动之后的图像,一个DeepFake攻击者会使用DeepFake的模型(这里以CycleGAN为例)来生成一个x的假图像,G就是生成器,用来得到篡改后的图像。那么理想情况下,本文的目的就是让DeepFake生成出来的假图像G(\tilde{x})包含非常明显的人眼可见的错误(因此使得DeepFake失效)。所以目标函数就是:

  

其中 r=G(x)是groundtruth(就是原始的图像经过DeepFake攻击之后得到的篡改图像),L()是一个度量相似性的距离函数。上述公式的目的就是在添加的扰动尽量小的情况下(\theta尽量小),使得添加扰动之后的图像\tilde{x},以及原始图像x,在被DeepFake攻击之后得到的篡改图像G(\tilde{x}) 和 G(x) 尽可能不同(比如,原始图像的篡改图像G(x)很真 ,而添加扰动的图像被篡改之后得到的图像 G(\tilde{x})很假)。这样就说明本文添加的扰动,能够对于DeepFake的攻击起到打断作用。

4.3 Lab Color Space

与RGB颜色表示相比(三个通道),Lab有一个光线通道L和两个颜色通道a和b。最简单的情况下,可以只改变L通道的数值来实现对图像的改变,所以Lab color space的表示很高效。本文通过在a和b两个通道上添加扰动来实现对图像的添加扰动。

4.4 本文Anti-forgery 方法

本文方法整体过程如下图算法1所示。(我个人没怎么看懂这部分,o,M是什么没有搞明白,所以在这里将文中的说法搬过来了,大家自行查看原文理解吧 TAT

作者首先将图像从RGB转到Lab Color Space,然后添加扰动,得到图像,再转回RGB格式 x_adv 进行后续处理。c是不同的面部特征标签。M是代理模型。目标函数如下:

 L()可以是L1或者L2正则,目标o可以是0,1或者高斯噪声。

实验

5.1 有效性评估

本文针对三种DeepFake攻击进行了实验,分别是 attribute editing, identity swap, and face reenactment。本文选择的DeepFake攻击模型有StarGAN, AttGAN, and Fader Network,都是可作为现有SOTA的GAN-based DeepFake模型(说明它们的造假能力够强)。

结果如下表所示,实验表明本文提出的方法(下表最右边的our method)在打断DeepFake攻击方面与其他方法(PGD,C&W)相比取得了不错的结果。下述四个评估指标,L2和ASR较大则说明引入了较大的失真(distortion),PSNR和SSIM较小说明引入了较大的corruption。(DeepFake防御模型能够让DeepFake模型生成的假图越假,包含越多的失真,说明防御模型越好

 5.2 鲁棒性分析

本节分析本文模型应对常见的输入转换(input transformations)的效果,包括JPEG压缩,高斯模糊,重建等(JPEG compression, Gaussian Blur, reconstruction)。由于社交网络上传播的图像经常面临各种压缩,模糊等损坏,而MagDR的研究表明,以前的DeepFake打断方法无法应对这些损坏,且很容易被一些简单的重构识别出这些方法添加的对抗噪声(导致打断目的失效)。因此本文做了这个实验,用于说明本文模型能解决上述问题。

结果如下表所示,可以看出本文方法在对应各种输入转换方面,表现非常好。

最近的一篇文章MagDR发现现有的打断DeepFake的方法对于input reconstruction不鲁棒。所以本文测试了本文的方法是否能够应对这个情况。

结果如下表所示,SSIM(I)代表添加了扰动的输入,SSIM(O)代表使用DeepFake篡改SSIM(I)之后的输出。可以看出对于SSIM(I),就是添加了扰动的输入,本文的方法比PGD拥有更少的扰动,但是在经过MagDR之后反而留下了更多的扰动,这说明本文的方法更能对抗后续的DeepFake攻击。从下表看出,MagDR不能破坏本文打断DeepFake的能力。

 5.3 讨论

本文方法有一个limit,添加的扰动是作用于整张图的,容易被crop背景攻击。所以未来要考虑将扰动作用于图像的internal region来对抗这种攻击。

总结和展望

本文为主动型DeepFake对抗工作展示了一个新的方向。未来会进一步探索更能多的物理场景来保护图像不被DeepFake。

个人理解及问题

  1. 博主刚看到DeepFake相关的研究,对于该领域完全不熟悉,如果上述理解有错误的地方,欢迎大家批评指正。但是感觉这个领域最近几年发展很快,研究也很有意义,感兴趣的同学可以试试看。
  2. 文中的方法部分没有看明白,尤其是公式3,其中o和M分别代表什么呢?公式3和公式2的区别和联系是什么?究竟哪个才是本文最终的优化目标啊。如果各位同学有明白的,希望不吝赐教,非常感谢。

参考文献

[1] Zhikai Chen, Lingxi Xie, Shanmin Pang, Yong He, and Bo Zhang. Magdr: Mask-guided detection and reconstruction for defending deepfakes. In CVPR, pages 9014–9023, 2021.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值