【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection

最新推荐文章于 2024-02-07 15:33:43 发布

吧啦吧啦嘭

最新推荐文章于 2024-02-07 15:33:43 发布

阅读量1k

点赞数 3

分类专栏： Deep Learning 文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_61628700/article/details/127332002

版权

5 篇文章 1 订阅

订阅专栏

* Combining `EfficientNet` and Vision Transformers for Video `Deepfake` Detection

题目：结合高效网络和视觉变压器进行视频深度虚假检测（结合）

作者：Davide Coccomini, Nicola Messina, Claudio Gennaro, and Fabrizio Falchi

ISTI-CNR, via G. Moruzzi 1, 56124, Pisa, Italy（意大利国家研究委员会）

发表期刊：ICIAP（图像分析和处理国际会议）

将各种类型的视觉变换器与卷积EfficientNet B0相结合，提取人脸特征。

不使用蒸馏法，也不使用集成法。而是一种基于简单投票的方案，用于处理同一视频镜头中的多个不同人脸。

主要创新：在视频的时空上判断各个人脸

用人脸检测器MTCNN对人脸进行预提取；

再用 the Efficient ViT and the Convolutional Cross ViT两个网络训练。

两分支组成：the Efficient ViT and the multi-scale Transformer architecture

即 S分支处理较小的斑块，L分支处理较大的斑块，以获得更宽的感受野。
使用两个不同的CNN主干作为特征提取器。

（只使用其一）

1.EfficientNet B0，它为S分支处理7×7图像补丁，为L分支处理54×54图像补丁。

2.Wodajo等人的CNN，它为S分支处理7×7图像补丁，为L分支处理64×64图像补丁。
Linear Proj:视觉变换器处理特征。
Transformer Encoder:解码器解码。
Cross-Attention:两条分支交互，生成独立的S-CLS,L-CLS。
MLP Head:分类图片。

关注