图像篡改检测的发展

一、基础知识

1 概念

从狭义上讲,深度伪造(源于“深度学习”和“伪造”)是指将目标人物的面部图像叠加到源人物的视频上,从而制作出目标人物做或说源人物做的事情的视频。

2 危害

利用深度造假的方法制作世界各国领导人的视频和虚假的演讲,对世界安全构成威胁,造成国家之间的政治或宗教紧张关系,愚弄公众,影响选举结果,或者通过制造假新闻来制造金融市场混乱。它甚至可以用来生成虚假的地球卫星图像,以迷惑军事分析人员。

3 图像篡改的类型

一般经过图像处理软件或算法编辑过的图像认为是篡改图像,按图像语义内容改变的结果可将图像篡改分为两种基本类型:
1)内容添加:在图像中增加本不存在的物体。
2)内容移除:把图像中实际存在的物体删除并将相应部位替换为与图像背景相吻合的内容。
按在实施图像篡改时使用的具体操作来看,图像篡改主要包含三个类型:
1)拼接(Splicing):此类操作将来源于宿主图像之外的内容移接到宿主图像中的某个区域。
2)复制移动(Copy-move):此类操作首先复制图像中的某些区域,并将它们移动覆盖到其他区域。
3)内容填充(Region filling):此类操作首先在图像中选择目标区域,然后在这些区域中填充与区域外之外图像语义相匹配的内容。可有效实现内容填充的主流技术是图像修复技术(Inpainting)
检测基础:为了保证篡改图像的视觉逼真性,这些篡改操作往往还伴随着旋转、缩放、亮度调整、边界平滑、滤波等处理操作,而且篡改图像在保存的过程中通常还会受到有损压缩。这一系列操作都会在图像上引入相关的痕迹,而这些痕迹则是可以进行图像篡改检测及定位的基础。

4 图像篡改定位技术发展

图像篡改定位此任务中需要开发有效的算法和模型,以待测图像作为输入,相应的输出一张与输入尺寸相同的概率图,其中各元素取值的大小表示相应位置像素被篡改的可能性的大小,对此概率图进行阈值化后,得到一张二值图像(掩模)(黑白图像)作为输出结果。由此可见,图像篡改定位实质上是一个像素级别的二分类问题。
早期,受技术限制,相关工作主要集中在篡改检测方面,判断图像是否经历过重采样滤波JPEG压缩拼接复制移动等。但这些方法并不适用于篡改定位。2013年IEEE信息取证与安全技术委员会(IFS-TC)组织的首届图像取证竞赛中,篡改检测ACC=0.9421,而篡改定位F1 score=0.4072。
从可行性上分析,大多数针对图像的篡改检测方法可以通过滑动口的方式来实现篡改定位,但避免不了窗口尺寸与定位性能相互制约的问题————提高定位的细致度需要减少窗口的尺寸,但是减小窗口的尺寸会导致算法准确率降低。
深度学习技术被逐渐引入到图像篡改领域。

5 数据集

名称发布时间图像格式图像尺寸图像数量(真/假)篡改方式像素级标签
NIST NC 162016JPG500x500-5616x3744560/564拼接、复制移动、移除
NIST NC 17207RAW、PNG、BMP、JPG160x120-8000x53202667/1410多种操作
MFC 182018RAW、PNG、BMP、JPG、TIF128x104-7952x530414156/3265多种操作
MFC 192019RAW、PNG、BMP、JPG、TIF160x120-2624x1968010279/5750多种操作
PS Battle2018PNG、JPG130x60-10000x855811142/102028多种操作
DEFACTO2019TIF240x320-640x640-/229000多种操作
fantasticReality2019JPG280x800-6000x400016592/19423拼接
IMD 20202020PNG、JPG193x260-4437x295837010/37010多种操作

6 性能评价指标

6.1 准确度ACC(Accuracy)

A C C = ( T P + T N ) / ( T P + F P + F N + T N ) ACC=( TP + TN )/( TP + FP + FN + TN ) ACC=(TP+TN)/(TP+FP+FN+TN)
TP(True Positive) :样本预测值与真实值相符且均为正,即真阳性
FP(False Positive) :样本预测值为正而真实值为负,即假阳性
FN(Fales Negative) :样本预测值为负而真实值为正,即假阳性
TN(True Negative) :样本预测值与真实值相符且均为负,即真阳性

6.2 F1 score

$F1=(2predictionrecall)/(prediction+recall) $

6.3 AUC(Area under Curve)

AUC为ROC曲线的下面积,ROC曲线的横坐标为FPR(False Positive Rate),纵坐标为TPR(True Positive Rate)
FPR=FP/(FP+TN):表示负样本分错的概率
TPR=TP/(TP+FN):表示正样本分对的概率
ROC曲线一般处于y=x这条直线的上方,所以AUC的取值范围在0.5~1之间。对应AUC更大的分类器,效果更好。

6.4 IOU

两个区域重叠的交集除以两个区域并集,简称交并比

二、图像鉴伪技术目前主要有以下几种方法

1 基于图像特征的图像鉴伪技术:

这类技术主要通过分析图像本身的统计信息和物理特性,如镜头失真矫正、颜色插值、传感器噪声等,来检测图像是否被篡改。早期的研究主要集中在这些方面,提出了许多算法和数学模型。然而,这些技术的检测率和鲁棒性都不够高,很难在实际中高质量、高效率地解决图像的信息安全问题。
基于特征提取的传统篡改检测技术早在20世纪90年代就已经出现。当时,随着计算机和数字图像处理技术的普及,人们开始研究如何利用数字图像处理技术来检测图像的真实性和篡改情况。其中,基于特征提取的传统篡改检测技术是最早的一种方法。这种方法主要通过分析图像本身的统计信息和物理特性,如镜头失真矫正、颜色插值、传感器噪声等,来检测图像是否被篡改。早期的研究主要集中在这些方面,提出了许多算法和数学模型。然而,随着深度学习技术的快速发展,基于深度学习的图像篡改检测技术逐渐成为研究热点,而基于特征提取的传统篡改检测技术逐渐被淘汰。

1.1步骤

特征提取:首先需要从图像中提取出一些具有代表性的特征,这些特征可以是颜色直方图、边缘方向、角点等。对于每张图像,可以提取出多个特征点,并将这些特征点转化为一个特征向量。
特征匹配:将两张需要比较的图像的特征向量进行匹配,找出相同或相似的特征点。如果两个特征点相同或相似,则可以认为这两张图像是真实的。
篡改检测:如果发现两张图像的特征点存在差异,则可以认为其中至少一张图像被篡改过。为了更准确地检测篡改,可以对多个特征点进行匹配和比较,综合考虑多个因素。

1.2 优点

自动化程度高:该技术可以通过计算机自动实现,无需过多的人工干预。适用范围广:该技术可以应用于各种类型的图像,包括彩色图像、灰度图像、多光谱图像等。准确性较高:通过对多个特征点的综合比较和分析,可以较为准确地检测出图像的真实性。

1.3 缺点

对特征提取算法的要求较高:需要选择合适的特征提取算法,以确保提取出的特征具有代表性和准确性。对图像质量的要求较高:如果图像质量较差或存在干扰因素,会对特征提取和匹配的结果产生不利影响。可能存在误判:由于不同图像之间的特征可能存在相似之处,因此可能会出现误判的情况。

2 基于数字水印的图像鉴伪技术:

该技术通过在图像中嵌入可证明来源的信息(即数字水印),以检测图像的真实性。如果图像被篡改,则可以通过提取数字水印来检测并定位篡改区域。这种方法需要事先在图像中嵌入秘密信息,接收者收到图像之后再提取水印或者数字签名,通过判断水印或签名的情况来判断图像是否已经被篡改过。
基于数字水印的图像鉴伪技术是在1994年由Schyndel首次提出的。

2.1步骤

水印嵌入:首先,需要在图像中嵌入一个不可见的水印,这个水印可以是作者的序列号、公司标志、有意义的文本等。水印的嵌入不会影响图像的视觉效果,但可以通过专用的检测器或阅读器提取。
水印提取:当需要验证图像的真实性时,可以通过专用的检测器或阅读器提取图像中的水印信息。
篡改检测:通过比较提取出的水印信息和原始水印信息,可以检测图像是否被篡改。如果两个信息不一致,则说明图像已经被篡改过。

2.2 优点

隐蔽性:水印信息隐藏在图像中,不改变图像的视觉效果,也不会影响图像的正常使用。鲁棒性:数字水印具有很强的鲁棒性,即使图像经过压缩、裁剪、旋转等操作,水印信息也不会丢失。可证明性:数字水印可以证明图像的版权归属或跟踪侵权行为,为版权保护提供可靠的依据。基于数字水印的图像鉴伪技术可以广泛应用于各种领域,如证件防伪、产品防伪、艺术品鉴定等。通过数字水印技术,可以大大增加伪造和篡改图像的难度,同时也可以提高图像鉴别的准确性和可靠性。

3 基于小波变换的图像鉴伪技术:

小波变换是一种信号分析方法,该方法通过将图像分解成多个子波段,并分析每个子波段中的特征和规律,以检测图像中是否存在篡改区域。如果存在,则可以进一步定位篡改区域并恢复原始图像。
基于小波变换的图像鉴伪技术是在20世纪90年代出现的。当时,小波变换作为一种信号分析方法,开始被应用于图像处理领域,包括图像篡改检测。通过将图像分解成不同尺度和频率的成分,小波变换能够提取出图像的特征和细节信息,从而用于检测图像的真实性和篡改情况。

3.1 步骤

小波变换:对输入图像进行小波变换,将图像分解成多个子带,每个子带表示具有不同频率范围的信号或图像细节。小波变换可以将图像的不同尺度和频率成分分离出来,从而提取出图像的特征和细节信息。
特征提取:从小波变换的结果中提取出一些特征和系数,这些特征和系数可以反映图像的重要信息和结构。例如,可以提取小波系数的幅度和相位信息,或者利用小波系数计算出一些统计量作为特征。
篡改检测:将提取出的特征和系数与原始图像的特征和系数进行比较,以检测图像是否被篡改。如果两个特征或系数存在差异,则可以认为图像已经被篡改或伪造。
图像重构:如果检测到图像被篡改,可以利用小波变换的反向变换和提取出的特征和系数,对图像进行重构,以恢复原始图像。

3.2 优点

多尺度分析:小波变换可以将图像分解成多个子带,每个子带表示具有不同频率范围的信号或图像细节,从而可以实现多尺度分析。特征提取能力强:小波变换可以提取出图像的特征和细节信息,从而可以对图像进行精确的分析和识别。抗干扰能力强:小波变换具有抗干扰能力,可以有效地抑制噪声和干扰,从而提高图像鉴别的准确性。

3.3 缺点

对小波基的选择要求较高:不同的小波基对信号或图像的表示能力有所差异,因此需要根据实际情况选择合适的小波基进行变换。对图像的定位和区域划分可能存在误差:小波变换是一种全局变换,无法精确地定位篡改区域,也可能存在误判的情况。

4 基于压缩感知的图像鉴伪技术:

该方法通过分析图像的压缩误差和压缩感知矩阵,以检测图像中是否存在篡改区域。如果存在,则可以进一步定位篡改区域并恢复原始图像。基于压缩感知的图像鉴伪技术是一种利用压缩感知理论进行图像真实性检测的方法。该技术主要通过欠采样、稀疏表示和重建等方法,来检测图像是否被篡改或伪造。
基于压缩感知的图像鉴伪技术是在2010年左右开始出现的。压缩感知理论提出了一种新的采样和重建方法,可以欠采样和稀疏表示图像。基于压缩感知的图像鉴伪技术利用这种方法来检测图像的真实性。在2010年左右,一些研究者开始尝试将压缩感知理论应用于图像篡改检测领域,并取得了一定的成果。与传统的基于特征提取的图像篡改检测技术相比,基于压缩感知的图像鉴伪技术能够更准确地检测出篡改区域,并且具有更高的鲁棒性。因此,基于压缩感知的图像鉴伪技术逐渐成为研究热点,并不断发展完善。

4.1 步骤

欠采样:在图像上进行欠采样,即只对部分像素点进行采样,以得到一个较小的观测矩阵。这个过程可以通过随机采样或按照一定的规则进行采样。
稀疏表示:将欠采样得到的观测矩阵表示成一个稀疏向量,这个稀疏向量只有少数元素是非零的。这个过程可以通过一些稀疏编码算法来实现。
重建:利用观测矩阵和稀疏向量,通过一些重建算法来恢复原始图像。这个过程可以采用一些优化算法,如L1最小化等。
篡改检测:如果图像被篡改或伪造,那么在欠采样和稀疏表示过程中,就会引入一些误差和噪声。这些误差和噪声会导致重建出的图像与原始图像存在差异,从而可以检测出图像的真实性。

4.2 优点

高压缩比:通过欠采样和稀疏表示,可以在保证图像质量的前提下,实现高压缩比,从而节省存储空间和传输带宽。鲁棒性较好:由于采用了欠采样和稀疏表示等技术,对于一些常见的图像篡改和伪造手段,如裁剪、旋转、缩放等,该技术能够较好地适应和处理。自动化程度高:该技术可以通过计算机自动实现,无需过多的人工干预。

4.3 缺点

对图像质量的要求较高:如果原始图像质量较差或存在干扰因素,会对欠采样、稀疏表示和重建的结果产生不利影响,导致检测结果不准确。可能存在误判:由于不同图像之间的特征可能存在相似之处,因此可能会出现误判的情况。

5 基于深度学习的图像鉴伪技术:

随着深度学习算法的发展,越来越多的研究者开始利用深度学习来检测图像的篡改。这种技术可以通过训练深度神经网络来学习图像中的特征和规律,并利用这些特征和规律来检测是否存在篡改区域。与基于特征提取的传统方法相比,基于深度学习的篡改检测技术能够更准确地检测出篡改区域,并且具有更高的鲁棒性。
基于深度学习的图像篡改检测技术是在2016年左右开始出现的。在当时,深度学习技术已经在计算机视觉领域取得了很大的成功,特别是在图像分类、目标检测、语义分割等方面。因此,一些研究者开始尝试将深度学习技术应用于图像篡改检测领域,并取得了一定的成果。与传统的基于特征提取的图像篡改检测技术相比,基于深度学习的图像篡改检测技术能够更准确地检测出篡改区域,并且具有更高的鲁棒性。因此,基于深度学习的图像篡改检测技术逐渐成为研究热点,并不断发展完善。
原理:基于深度学习的图像鉴伪技术利用深度神经网络对图像进行特征提取,并通过训练模型来识别和分类图像,以及检测篡改区域。该技术的核心思想是通过训练深度神经网络来学习图像中的特征和规律,并利用这些特征和规律来检测是否存在篡改区域。

5.1 步骤

数据准备:首先需要准备大量的图像数据集,包括真实的图像和篡改过的图像。在数据集中,每张图像都应有相应的标签,在训练过程中,需要对这些图像进行预处理,例如调整图像大小、归一化像素值等。以供训练和测试使用。
特征提取:利用深度神经网络对每张图像进行特征提取,以得到图像的特征向量。特征提取的过程可以通过卷积神经网络(CNN)、残差网络(ResNet)、U-Net等来实现。在CNN中,每个卷积层可以提取出图像的不同级别的特征,例如边缘、纹理、局部特征和全局特征。
训练模型:利用提取出的特征向量和相应的标签,训练一个深度神经网络模型。常见的模型包括支持向量机(SVM)、决策树(Decision Tree)、随机森林(Random Forest)等。在训练过程中,可以使用反向传播算法来优化模型的参数,以使得模型能够更好地学习和识别图像中的特征和规律。
模型评估:使用测试数据集对训练好的模型进行评估,常用的评估指标包括准确率、召回率、F1得分等。通过调整模型的超参数和采用不同的数据增强技术,可以提高模型的性能和鲁棒性。
检测篡改区域:当模型训练完成后,可以利用该模型来检测图像中是否存在篡改区域。具体来说,对于每张输入的图像,模型会输出一个篡改概率值,该值表示图像被篡改的可能性。如果篡改概率值大于某个阈值,则认为图像存在篡改区域。
定位篡改区域:除了检测篡改区域外,模型还可以定位篡改区域。具体来说,模型会输出篡改区域的坐标信息,这些坐标信息可以用于定位篡改区域的位置。

6 细分基于深度学习的图像鉴伪技术:

6.1 基于深度卷积神经网络的图像篡改检测技术

卷积神经网络在多种图像处理任务中有着出色的表现,因而它在图像篡改定位中也受到了广泛的使用。在篡改定位任务中,使用单一特征往往不易取得令人满意的结果。传统做法是利用不同特征得到分类结果,然后再融合这些结果进行决策。
该方法主要由两部分组成:特征提取分类。首先使用深度卷积神经网络(CNN)对输入图像进行特征提取。CNN的卷积层可以捕捉到图像的局部特征,而池化层则可以对特征进行降维,提高模型的泛化能力。提取的特征可以包括纹理、形状、色彩等。接下来将提取的特征输入到一个分类器中,如支持向量机(SVM)或softmax分类器,进行分类。通过比较原始图像和篡改图像的Hash值,可以检测出图像是否被篡改。这种方法简单、高效,具有很好的实时性。代表论文包括Fridrich等人于2012年发表的“Copy-Paste Detection Using DCT-Based Blocking and Perceptual Hashing”。这篇论文中,Fridrich等人提出了一种基于离散余弦变换(DCT)的图像分块方法,以及一个基于感知哈希(perceptual hash)的图像相似度度量方法。通过比较原始图像和篡改图像的分块哈希值,可以有效地检测出图像是否被复制-粘贴篡改。

6.2 基于自编码器的图像篡改检测技术:

自编码器是一种无监督学习框架,它包含编码器与解码器两部分,其中编码器将输入图像映射成位数较低的特征,解码器则利用该特征重构输入图像,在训练过程中通常将网络输出与输入的均方误差(MSE)作为损失函数来对网络参数加以优化,使得输出和输入逐渐接近,这样就能使编码区提取到关于图像的有效特征表达。
该技术使用自编码器进行特征重建和差异比较。自编码器将输入图像编码成低维表示,再解码成重建图像,通过比较重建图像与原始图像之间的差异来检测篡改。为了提高检测准确性,可以使用多尺度自编码器或卷积自编码器等方法。代表论文包括Zhang等人于2019年发表的“Image Tampering Detection Using Generative Adversarial Networks”。在这篇论文中,Zhang等人提出了一种基于生成对抗网络(GAN)的图像篡改检测方法。该方法使用GAN生成模拟图像,并通过判别器网络对生成的图像进行判断。GAN由两个神经网络组成:生成器和判别器。生成器负责生成模拟图像,而判别器则负责判断生成的模拟图像是否与原始图像相似。在训练过程中,生成器和判别器会不断进行优化,直到判别器无法区分生成的模拟图像和原始图像之间的差异。通过分析差异,可以检测出图像是否被篡改。这种方法能够有效地检测出使用GAN技术的伪造图像。

6.3 基于生成对抗网络的图像篡改检测技术:

该方法使用生成对抗网络(GAN)生成模拟图像,并通过判别器网络对生成的图像进行判断。GAN由两个神经网络组成:生成器和判别器。生成器负责生成模拟图像,而判别器则负责判断生成的模拟图像是否与原始图像相似。在训练过程中,生成器和判别器会不断进行优化,直到判别器无法区分生成的模拟图像和原始图像之间的差异。通过分析差异,可以检测出图像是否被篡改。这种方法能够有效地检测出使用GAN技术的伪造图像。代表论文包括Li等人于2019年发表的“Image Tampering Detection Using Generative Adversarial Networks”。在这篇文章中,Li等人提出了一种基于GAN的图像篡改检测方法。该方法首先使用GAN生成一组模拟图像,然后使用一个卷积神经网络(CNN)作为判别器来区分原始图像和模拟图像之间的差异。通过训练判别器,可以学习到从模拟图像中提取的特征表示原始图像的方法。最后,使用这些特征表示可以对未知篡改图像进行检测和定位。

6.4 基于多任务的深度学习网络的图像篡改检测技术:

该方法将多个特征提取方法和分类器结合在一起以提高模型的泛化能力和鲁棒性。使用改进的Mask R-CNN模型进行特征提取和分类,结合图像的LBP纹理特征和改进的特征金字塔进行特征混合,以提高篡改检测的准确性。代表论文包括Liu等人于2020年发表的“Image Tampering Detection Using Generative Adversarial Networks”。在这篇论文中,Liu等人提出了一种基于GAN的多任务深度学习网络模型。该模型由三个子任务组成:生成任务、分类任务和分割任务。生成任务负责学习如何生成与原始图像相似的模拟图像;分类任务负责将模拟图像和原始图像分类;分割任务负责将原始图像中的物体进行分割。通过同时优化这三个子任务,可以提高模型的泛化能力和鲁棒性,从而提高了篡改检测的准确性。

6.5 基于注意力机制的图像篡改检测技术:

该方法使用注意力机制自动学习输入数据的重点和关键区域。通过在特征映射中使用注意力机制,能够更好地捕捉到图像的特征,提高模型的泛化能力和鲁棒性。代表论文包括Zhang等人于2019年发表的“Attention-Based Convolutional Neural Network for Image Tampering Detection”。在这篇论文中,Zhang等人提出了一种基于注意力机制的卷积神经网络(CNN)模型,用于图像篡改检测。该模型使用自注意力机制(self-attention mechanism)对输入图像进行特征提取,并使用他注意力机制(other-attention mechanism)对特征进行加权融合。通过注意力机制,该模型能够自动学习到图像中的关键区域和重要特征,从而提高了模型的泛化能力和鲁棒性。

6.6 基于对抗性学习的图像篡改检测技术:

该方法使用对抗性学习技术增加模型的难度,从而提高模型的鲁棒性和泛化能力。生成器和判别器网络进行对抗性学习,通过不断调整网络参数提高模型的鲁棒性和泛化能力。这种方法能够有效地提高模型的抗干扰能力,并且还可以用于其他计算机视觉任务中,如图像分类、目标检测等。代表论文包括Li等人于2020年发表的“Adversarial Learning for Image Tampering Detection and Localization”。在这篇论文中,Li等人提出了一种基于对抗性学习的图像篡改检测和定位方法。该方法使用一个生成器网络和一个判别器网络进行对抗性学习。生成器网络负责生成模拟图像,而判别器网络则负责判断生成的模拟图像是否与原始图像相似。通过不断优化生成器和判别器网络,可以提高模型的鲁棒性和泛化能力,从而提高了篡改检测和定位的准确性。

6.7 基于生成模型的图像篡改检测技术:

生成对抗网络(GAN)由Goodfellow等人提出,其中包含两个网络:一个是生成器(Generator),一个是判别器(Discriminator)。生成器尝试产生看起来自然真实、和原始数据尽量相似的样本,而判别器则需要判断给定的样本是真实的还是生成的。经过交替的对抗学习的优化,生成器和判别器的性能都可得到提升。GAN在图像篡改定位中的应用主要有两方面:一是将长生篡改定位结果看作生成问题,通过加入判别器进行对抗训练,优化生成的结果。二是利用GAN生成困难样本进行数据增强,从而强化模型训练效果。
该方法使用生成模型(如GAN)生成模拟图像,并通过比较模拟图像与原始图像之间的差异来进行篡改检测。生成器和判别器网络进行对抗性学习,通过不断调整网络参数提高模型的鲁棒性和泛化能力。这种方法能够有效地提高模型的抗干扰能力。代表论文包括Li等人于2019年发表的“Image Tampering Detection Using Generative Adversarial Networks”。在这篇文章中,Li等人提出了一种基于GAN的图像篡改检测方法。该方法使用GAN生成一组模拟图像,并使用一个卷积神经网络(CNN)作为判别器来区分原始图像和模拟图像之间的差异。通过训练判别器,可以学习到从模拟图像中提取的特征表示原始图像的方法。最后,使用这些特征表示可以对未知篡改图像进行检测和定位。

三、假视频检测

大多数图像检测方法都不能用于视频,因为视频压缩后的帧数据会有很强的退化。此外视频在帧与帧间具有多种多样的时间特征。深度伪造视频的检测方法被分为两类:基于时间特征的方法基于帧内视觉伪影的方法

1 跨视频帧的时间特征

1.1

论文:Recurrent Convolutional Strategies for Face Manipulation Detection in Videos
在深度伪造的合成过程中时间相干性没有得到有效执行,因此利用视频流的时空特征来检测深度伪造。视频处理是在逐帧的基础上进行的,因此,人脸处理产生的低级伪影被认为进一步表现为跨帧不一致的时间伪影。在这篇论文中,作者们提出了一种新型的递归卷积神经网络模型,用于在视频中检测人脸操作。该模型结合了卷积神经网络(CNN)和递归神经网络(RNN),以有效地处理视频序列中的空间和时间信息。CNN可以有效地从视频中捕捉到局部和全局特征,而RNN则可以捕捉视频中的动态变化。通过将CNN和RNN结合起来,该模型能够在视频中检测人脸操作。

1.2

论文:Deepfake video detection using recurrent neural networks
深度造假视频包含帧内不一致和帧间时间不一致。提出了时间感知管道方法,该方法使用CNN和长短期记忆(LSTM)来检测深度假视频。使用CNN提取帧级特征,然后将其输入LSTM以创建时间序列描述符。最后利用全连接网络,基于序列描述符对篡改视频和真实视频进行分类,使用600个视频的数据集获得了超过97%的准确性,其中包括从多个视频托管网站收集的300个深度假视频和从好莱坞人类行为数据集随机选择的300个原始视频。

1.3

基于观察到深度造假中的人比未篡改视频中的人眨眼频率要低得多。一个健康的成年人通常眨眼2到10秒,而每次眨眼需要0.1到0.4秒。然而,Deepfake算法经常使用在线上可用的人脸图像进行训练,这些图像通常显示的是睁着眼睛的人,也就是说,互联网上发布的图像中很少有闭着眼睛的人。因此,如果无法获得人们眨眼的图像,深度造假算法就无法生成可以正常眨眼的假脸。换句话说,深度造假视频中的闪烁频率远低于普通视频。

2 视频帧内的视觉伪影

使用跨视频帧的时间模式的方法大多基于深度循环网络模型来检测深度假视频。本小节研究了通常将视频分解为帧的另一种方法,并在单个帧内探索视觉伪影以获得判别特征。然后将这些特征分配到深层或浅层分类器中,以区分假视频和真实视频。因此,我们在本小节中根据分类器的类型对方法进行分组,即深层或浅层。
深层分类器:Deepfake视频通常以有限的分辨率创建,这需要仿射面部扭曲方法(即缩放,旋转和剪切)来匹配原始视频的配置。由于扭曲的人脸区域与周围环境之间的分辨率不一致,这一过程留下了可以被CNN模型(如VGG16、ResNet50、ResNet101和ResNet152)检测到的伪像。
浅层分类器:深度伪造检测方法主要依赖于伪影或假图像或真实视频之间内在特征的不一致。通过观察包含头部的三维头部姿态差异的检测方法,根据面部中心区域的68个面部标志估计出的方向和位置。由于深度假人脸生成管道存在缺陷,对三维头部姿态进行了检测。将提取的特征输入到支持向量机分类器中,得到检测结果。基于眼睛、牙齿和面部轮廓的视觉特征来利用深度伪造和面部操纵的伪影的方法。

四、未来努力方向

提高深度伪造检测方法的性能非常重要,特别是在交叉伪造和跨数据集场景下。大多数检测模型都是在同一伪造和数据集内实验中设计和评估的,这并不能保证其泛化能力。
另一个研究方向是将检测方法整合到社交媒体等传播平台中,以提高其应对深度造假广泛影响的有效性。使用有效检测方法的筛选或过滤机制可以在这些平台上实现,以减轻深度伪造的检测。此外,水印工具还可以集成到人们用于制作数字内容的设备中,以创建不可变的元数据,用于存储多媒体内容的时间和位置等原创性细节及其不可篡改的证明。这种整合很难实现,但解决方案可能是使用颠覆性的区块链技术。区块链已经在许多领域得到了有效的应用,目前基于该技术解决深度造假检测问题的研究还很少。由于它可以创建一系列独特的不可更改的元数据块,因此它是数字来源解决方案的绝佳工具。

  • 9
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值