©作者 | Doreen
01 介绍
深度学习的飞速发展为图像处理带来技术突破的同时,也为虚假图像和视频的泛滥创造了条件。
利用深度学习算法伪造的图像和视频很难用肉眼区分出来,若这些图像和视频被不良分子利用,将对社会和个人造成一定的损失。
因此,寻找一个有效的算法识别伪造的图像和视频显得尤为重要。
传统的虚假视频的检测方法是利用哈希算法进行图像检索,由于相似视频的哈希编码相互联系紧密,很难区分出细节部分,这给识别工作造成了较大的困难。
针对这个问题,研究人员提出了利用基于vision Transformer模型的视频哈希检索方法有效地识别了视频中的可疑部分。
02 相关工作
目前,鉴定深度学习伪造视频的方式主要有两类,一类是通过伪造内容和源内容在视觉上的不一致性来区分出可疑部分,另一类是借助两者不同的数据特征来区分出伪造目标。
前一种方法用人眼就能清楚地识别伪造内容,但对于伪造技巧高超的目标,仅凭视觉难以准确地区分出可疑部分。
第二种方法虽不依赖视觉特征,仅利用数据特征就能识别高质量的伪造视频,但在一些特殊的情况下很难提供有效的证据证明视频的可疑部分。
因此,将视觉特性和数据结合起来成为研究人员关注的焦点。
基于深度学习模型的图像哈希网络已经在识别伪造图像中取得了较好的成果,但在视频方面的应用比较少。
因此,作者提出将Vision Transformer模型与视频哈希检索法结合起来用于标注视频中的可疑部分。
03 方法
1、训练视频的哈希中心
将高维度的数据在汉明空间中转换成紧凑的二进制哈希编码后可以高效地进行数据存储和检索。因此,有效地对视频进行哈希编码是视频鉴别的首要条件。
作者首先将1个源视频和一组伪视频送入vision Transformer模型令其生成哈希中心集。
vision Transformer的结构如图1(a)所示,包括2个Transformer编码模块和2个相似的注意力