Detecting Deep-Fake Videos from Appearance and Behavior

Detecting Deep-Fake Videos from Appearance and Behavior
Paper PDF


Introduction

问题背景->普遍方法->现有方法的缺陷->发现线索->针对线索提出合理的方法
这种通过合成技术制造的被叫做deepfakes的视频和音频自出现以来就一直收到了计算机视觉和计算机图形学社区的关注。由于技术的不断进步,制造特定人物的伪造视频和音频已经变得普遍和大众化。这使得社会身份认证面临着巨大的挑战。

Generate Deep Fakes

deepfakes通常指的是利用 DeepFake FaceSwap、FS-GAN、Neural Textures、Face2Face、FaceSwaps等技术合成的视频或者音频。其中Deep Fake Face Swap使用GAN将视频中的人脸替换为其他人脸。与FS-GAN、Neural Textures利用学习的方式合成伪造不同,Face2FaceFaceSwaps则利用传统的计算机图形学的技术来实现表情迁移。

Detecting Deep Fakes

现有的deepfakes检测技术可以大致分为两类:

  • Low-level approaches:
    这类技术关注于检测在伪造合成过程种产生的像素级别的artifacts,通常在图像认证方面使用。如通过神经网络学习图像中不同区域metadata(e.g. Focal length, ISO, exposure time …)的不一致性;再如利用GAN网络生成的图像往往具有棋盘状的频率分布图。
    这种方式的优点在于可以自动学习真实和伪造物之间的低级别的差异,但检测精度容易受到一些渲染攻击,如压缩、trans-coding、resize等攻击的影响,同时在面对不同的伪造方式使也表现出较差的泛化能力。

  • High-level approaches:
    这类技术则更关心高级别的语义信息,通常用于认证图像、音频或视频等。如利用人脸替换区域和整个人脸来预测头部姿势,并通过对比来判断是否伪造;再比如研究者发现伪造视频中人眨眼频率与真实视频相比大幅减小(现部分伪造技术已经纠正);再比如利用语音和口型的一致性来判断视频是否真实。
    这类方法由于依赖高维的语义信息,因此对压缩、不同伪造方式具有较强的鲁棒性。但随着伪造技术的不断升级,一些高层语义的一致性也会被逐渐考虑并优化。

本篇论文从Face-swap类型的伪造技术出发,利用deepfakes中的一个根本的缺陷: deepfake中的人并不是真正的那个人来检测视频的真伪。作者观察到,在交换面部的deepfakes中的面部行为仍然是原始个人的面部行为,而面部身份却是不同的个人。因而通过基于面部识别的静态生物特征与基于面部表情和头部运动的时序,行为生物特征相结合。前者利用人脸识别中的标准技术,而后者利用由度量学习目标函数提供支持的卷积神经网络(CNN)来学习行为嵌入。通过将行为和面部身份与一组真实的参考视频进行匹配,匹配身份中的不一致会显示出这种伪造方式。


Innovation

  1. 基于面部识别的静态生物特征与基于面部表情和头部运动的时序,行为生物特征相结合
  2. 建立reference database,以特征匹配的方式自动进行特定人物的伪造认证。

Method

总的认证流程如下图所示:
在这里插入图片描述

Biometrics Extraction

Behavior

作者使用FAb-Net提取256-D静态人脸表情特性,并以此作为输入来构建视频中人物的时空生物特征。具体地说,首先将一个人说话的t帧视频经过网络化简为特征矩阵 X ∈ R 256 × t X∈R^{256×t} XR256×t,其中每个矩阵列对应于每个帧的FAb-Net特征。以该特征矩阵为输入,通过训练CNN网络来学习一种与身份相关的时空行为的低维映射。即相同身份的行为特征应该尽量近似,而不同身份的行为特征应该差异。由于输出特征采用了正则化,所以采用余弦相似度来计算特征相似度。
这里作者用到了度量学习的办法,通过给hard样本增加权重以此来学习与身份相关性特征。具体可以参考原文。

Appearance

作者利用人脸来表达人物的Appearance属性。借鉴于以往的人脸识别网络,作者使用了16层的VGG网络模型来提取人脸特征。通过帧中人脸特征取平均来获得视频clip的人脸特征。

通过数据集,将视频划分为4s的clips,并通过以上特征提取,建立特定人物的behavior B i ∈ R 512 × m i B_i \in R^{512 \times m_i} BiR512×mi 和Appearance F i ∈ R 4096 × m i F_i \in R^{4096 \times m_i} FiR4096×mi特征集。其中 m i m_i mi代表数据库中i-th人的视频数量。

Authentication

给定视频片段,通过以上网络提取该视频中人物的behavior特征 b b b和Appearance特征 f f f。并找到与参考数据集中找到人物 i f i_f if和人物 i b i_b ib,使得
i f = a r g m a x i { m a x ( f t ⋅ F i ) } a n d i b = a r g m a x i { m a x ( b t ⋅ B i ) } i_f = argmax_i \{max(f^{t} \cdot F_i) \} \\ and \\ i_b = argmax_i \{max(b^{t} \cdot B_i) \} if=argmaxi{max(ftFi)}andib=argmaxi{max(btBi)}

得到了与之匹配的人物 i f i_f if i b i_b ib,则视频的真伪可以通过以下方式进行判定:

  • 视频是真实的: i f = i b i_f =i_b if=ib 并且 c f > = τ f c_f >= \tau_f cf>=τf,其中 c f = m a x ( f t ⋅ F i f ) c_f = max(f^{t} \cdot F_{i_f}) cf=max(ftFif) τ f \tau_f τf是一个具体的人脸相似度阈值。
  • 视频是伪造的: i f ≠ i b i_f \neq i_b if=ib,或者 c f < τ f c_f < \tau_f cf<τf

Experiment

Result

在这里插入图片描述
在这里插入图片描述

值得注意的是,DFDC-P的准确性非常低。这是因为这个数据集中的许多假视频无法正确的地将所需源人脸映射到目标视频中,具体如下如所示:
在这里插入图片描述
作者通过计算视频伪造后的人脸,与源视频中和视频未伪造的人脸进行相似度计算,结果显示,如下图:DFDC-P数据集中伪造后的人脸与视频未伪造的人脸存在较高的相似度,也意味着伪造视频未能成功的进行人脸替换。这使得作者提出的模型在判断这种视频时认为人脸特征与行为特征所映射的人物身份一致,即判定为为真实视频。
在这里插入图片描述

Compare

在这里插入图片描述

Analysis

  1. 行为网络确实能够捕捉行为特征,而不仅仅是一个人的面部特征。如下图(a)所示
  2. 行为网捕捉特定于身份的行为,而不仅仅是与身份无关的行为表达。如下图(b,c)所示
  3. 为个人构建参考集所需的数据量是较小的。(是否可以提取更加discriminating的行为特征,以只需要一个特征向量作为参考?,类似于人脸识别)

With 2, 30, 50, 100, 1000, and 2000 video clips, the average detection accuracy for identities in the WLDR dataset are 65.4%, 92.2%, 93.2%, 94.0%, 97.3%, and 97.7%, respectively.

  1. 分类准确率对简单的压缩操作的鲁棒性。

Each testing video clip was recompressed at a lower quality of qp=40 and classified against the original reference set. For the same threshold ( τ f \tau_f τf= 0.86), the average detection accuracy remains high at 94.5% (WLDR), 98.1% (FF), 93.2% (DFD), 80.9% (DFDC-P), and 93.3% (CDF). These results are almost identical to the high-quality videos

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在卫星时间序列数据中检测变点、趋势和季节性是一项重要的任务。卫星时间序列数据是通过卫星观测到的地球表面上的连续观测数据。这些数据可以用于监测和分析地球表面的变化,如气象、土地利用和植被覆盖等。 首先,检测变点是指在时间序列中找到突变或结构转变的点。变点可能代表了不同的影响因素引起的突变,例如自然事件、人为活动或仪器故障等。通过分析时间序列数据的变化趋势,可以使用一些统计方法来检测这些变点。 其次,趋势是指时间序列数据中长期的变化方式。有时,卫星时间序列数据中的变化可能会逐渐增长或减少,这可以被称为趋势。通过对时间序列数据进行回归分析或移动平均处理,我们可以检测和评估这种趋势。 季节性是指在一年内周期性的重复出现的模式。例如,地表温度通常会因季节变化而发生变化,夏季温度高,冬季温度低。对于卫星时间序列数据,我们可以通过分析数据的周期性变化来检测季节性。一种常用的方法是使用季节分解技术,如STL分解,将时间序列分解成长期趋势、季节变化和随机噪声部分。 通过检测卫星时间序列数据中的变点、趋势和季节性,我们可以更好地理解地球表面的变化,并为环境监测和资源管理提供更准确的信息。这些分析结果可以用于研究气候变化、土地利用变化、植被变化等,以及评估其对环境和人类社会的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值