FWA:Exposing Deepfake videos by detecting face warping artifacts [CVPRW2019]
切入点:假脸替换到目标人脸的仿射变换过程中会产生伪影(被替换人脸部位与周围部位分辨率不一致)
亮点:不是直接使用Deepfake视频作为负样本训练,而是通过模拟分辨率不一致性简化训练过程
Mesnoet:a compact facial video forgery detection network
基于图像噪声的微观分析不能应用于图像噪声被强降噪的压缩视频环境中。同样,在更高的语义水平上,特别是当图像描绘的是人脸时,人眼很难分辨出伪造的图像。因此作者建议采用一种中间方法,使用具有少量层的深层神经网络.
Capsuleforensics: Using capsule networks to detect forged images andvideos [ICASSP 2019]
胶囊网络。网络参数较低。检测打印图像或录制视频的重放攻击,或GAN生成的假视频。
LRNet:Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features [CVPRW2021]
切入点:提取精确的几何特征进行时间建模来检测Deepfake视频。具体为,先抽取人脸关键点,针对现有方法抽取人脸关键点精确率不高的问题,提出校准模块,利用光流预测下一帧的关键点位置后,和下一帧抽取的关键点用Kalman filter做融合,最后把校准后的关键点位置和速度输入到RNN(充分挖掘时间特征)中进行预测。
亮点:权重更少,更易训练。检测高度压缩或噪声污染的视频方面表现出了鲁棒性。在 FaceForensics++ 数据集上达到了 0.999 的 AUC。
CNN+LSTM:Deepfake video detection using recurrent neural networks
端到端网络,InceptionV3提帧级特征后送入LSTM(LRCN)捕获人脸交换过程中引入的帧之间的时间不一致性。
使用CNN卷积神经网络提取帧级特征,然后使用时间感知RNN网络,用于捕获人脸交换过程中引入的帧之间的时间不一致性。
缺点:需要真实和伪造图片作为训练数据,低效。
FT-Two Stream:Detecting compressed deepfake videos in social networks using frame-temporality two-stream convolutional network
视频压缩给视频帧带来大量噪声,本文提出帧级流的方法并逐渐对网络进行修剪,以防止模型拟合压缩噪声。针对深度伪造视频中时间一致性被忽略的问题,采用时间级流提取时间相关特征。通过将帧级流和时间级流结合,提取压缩深度伪造视频的帧级篡改伪影和时间级的帧间不一致性,从而提高检测压缩视频的性能。
一种通过学习帧级特征和时间级特征来检测压缩的深度伪视频的方法。一方面,压缩后的视频向帧中添加了大量的冗余信息,如压缩工件。我们的帧级流可以修剪冗余的连接,以防止无效的连接影响最终的预测。此外,我们提取的是i帧,而不是视频的整个帧,这会降低训练效率。另一方面,由于假视频在合成过程中忽略了时间的一致性,因此利用时间级流来捕获时间特征。这两个流将被独立训练,然后被融合。
Finfer:Frame Inference-based Deepfake Detection for High-Visual-Quality Videos