基于Vision Transformer的视频哈希检索识别虚假视频

最新推荐文章于 2024-06-08 09:58:33 发布

CV案例精选

最新推荐文章于 2024-06-08 09:58:33 发布

阅读量4.2k

点赞数

文章标签： transformer 音视频哈希算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cvanlijingxuan/article/details/122297035

版权

©作者 | Doreen

01 介绍

深度学习的飞速发展为图像处理带来技术突破的同时，也为虚假图像和视频的泛滥创造了条件。

利用深度学习算法伪造的图像和视频很难用肉眼区分出来，若这些图像和视频被不良分子利用，将对社会和个人造成一定的损失。

因此，寻找一个有效的算法识别伪造的图像和视频显得尤为重要。

传统的虚假视频的检测方法是利用哈希算法进行图像检索，由于相似视频的哈希编码相互联系紧密，很难区分出细节部分，这给识别工作造成了较大的困难。

针对这个问题，研究人员提出了利用基于vision Transformer模型的视频哈希检索方法有效地识别了视频中的可疑部分。

02 相关工作

目前，鉴定深度学习伪造视频的方式主要有两类，一类是通过伪造内容和源内容在视觉上的不一致性来区分出可疑部分，另一类是借助两者不同的数据特征来区分出伪造目标。

前一种方法用人眼就能清楚地识别伪造内容，但对于伪造技巧高超的目标，仅凭视觉难以准确地区分出可疑部分。

第二种方法虽不依赖视觉特征，仅利用数据特征就能识别高质量的伪造视频，但在一些特殊的情况下很难提供有效的证据证明视频的可疑部分。

因此，将视觉特性和数据结合起来成为研究人员关注的焦点。

基于深度学习模型的图像哈希网络已经在识别伪造图像中取得了较好的成果，但在视频方面的应用比较少。

因此，作者提出将Vision Transformer模型与视频哈希检索法结合起来用于标注视频中的可疑部分。

03 方法

1、训练视频的哈希中心

将高维度的数据在汉明空间中转换成紧凑的二进制哈希编码后可以高效地进行数据存储和检索。因此，有效地对视频进行哈希编码是视频鉴别的首要条件。

作者首先将1个源视频和一组伪视频送入vision Transformer模型令其生成哈希中心集。

vision Transformer的结构如图1（a）所示，包括2个Transformer编码模块和2个相似的注

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
1
评论
基于Vision Transformer的视频哈希检索识别虚假视频

传统的虚假视频的检测方法是利用哈希算法进行图像检索，由于相似视频的哈希编码相互联系紧密，很难区分出细节部分，这给识别工作造成了较大的困难。针对这个问题，研究人员提出了利用基于vision Transformer模型的视频哈希检索方法有效地识别了视频中的可疑部分。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CV案例精选 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。