【CViT】Deepfake Video Detection Using Convolutional Vision Transformer

最新推荐文章于 2025-06-05 16:53:26 发布

jessIoss

最新推荐文章于 2025-06-05 16:53:26 发布

阅读量242

点赞数

分类专栏：论文阅读笔记DeepFake 文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/sinat_39223177/article/details/142661459

版权

论文阅读笔记DeepFake 专栏收录该内容

78 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

Deepfake Video Detection Using Convolutional Vision Transformer
key points
**卷积视觉变压器**
- FL
- ViT
实验
总结

Deepfake Video Detection Using Convolutional Vision Transformer

会议/期刊：2021
作者：
在这里插入图片描述

key points

提出了一种用于检测深度伪造的卷积视觉变压器【CNN+VIT】

CNN提取可学习的特征，而ViT将学习到的特征作为输入，并使用注意机制对其进行分类。

我们的工作基于[10,11]指出的Deepfake检测方法的两个弱点:数据预处理和通用性。

我们提出了一种广义卷积视觉变压器(CViT)架构，使用卷积神经网络和变压器架构来检测Deepfake视频。

称我们的方法是一般化的，主要有三个原因。
1)我们提出的模型利用Transformer的注意力机制，利用CNN和Transformer架构学习局部和全局图像特征[6]。
2)我们在训练和分

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jessIoss

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

【Keyframes】Deep Convolutional Pooling Transformer for Deepfake Detection

人生不是轨道，是旷野。希望每天都有好心情。

11-04

102

提出了一种新的深度卷积变压器，使用卷积池和重新注意技术来进行深度伪造检测中的局部和全局面部特征学习。证明了很少讨论的图像关键帧在图像特征学习中的重要性。普通的视频压缩会导致图像帧的信息丢失。【深入探索图像关键帧，研究局部和全局的决定性特征和关系，有助于进一步提高Deepfake检测的性能。

哥又来看论文了《Deepfake Video Detection Using Convolutional Vision Transformer》

weixin_56180495的博客

01-03

1432

我对这篇论文的评价：很水但平易近人！适合我这个小白（憨憨）看~

参与评论您还未登录，请先登录后发表或查看评论

【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection

m0_61628700的博客

10-15

1193

Combining EfficientNet and Vision Transformers for Video Deepfake Detection 题目：结合高效网络和视觉变压器进行视频深度虚假检测（结合）

关于论文《Deep Convolutional Pooling Transformer forDeepfake Detection》阅读笔记

weixin_56180495的博客

12-29

584

这篇论文先用CNN进行特征提取，随后输入到transformer中，但对transformer进行了改动，将transformer划分为3个阶段，每个阶段之后跟着一个全局池化操作，目的是为了降低特征的尺寸。MLP是一种全连接的神经网络结构，其目的是通过学习从卷积层提取的高级特征来执行分类、回归等任务。MLP的每个神经元与前一层的所有神经元相连接，因此MLP能够学习输入数据中的更复杂的模式和表示。3.一维向量输入到MLP中，MLP学习将这些高级特征映射到最终的输出，如分类标签。学习输入数据的局部特征。

深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection

Bysen32

07-27

3105

本文通过使用EfficientNet作为图像块的特征前置提取器处理ViT的输入，并提出一种（没啥新颖度，用来凑字数的）投票方法。以较小的参数代价，实现了与SOTA方法可比较（实际上差得远）的性能。

计算机视觉论文-20210223

中科院AI算法工程师的博客

02-23

2336

本专栏是计算机视觉方向论文收集积累，时间：2021年2月23日，来源：paper digest 欢迎关注原创公众号【计算机视觉联盟】，回复【西瓜书手推笔记】可获取我的机器学习纯手推笔记！直达笔记地址：机器学习手推笔记（GitHub地址） 1, TITLE:Explainers in The Wild: Making Surrogate Explainers Robust to Distortions Through Perception AUTHORS: Alexander Hepb...

deepfake视频检测-基于卷积Vision-Transformer实现的deepfake视频检测源码+模型+运行说明.zip

10-13

本文将介绍的项目是一个基于卷积Vision-Transformer技术的Deepfake视频检测工具。Vision-Transformer（ViT）是一种新型的基于Transformer模型的图像识别架构，它将传统的卷积神经网络（CNN）的局部感受野和...

TPAMI 2024 | CrossFormer++: 基于跨尺度注意力的多功能视觉Transformer

小白学视觉

07-05

2298

虽然不同尺度的特征在视觉输入中具有感知重要性，但现有的视觉Transformer尚未显式利用这些特征。为此，我们首先提出了一种跨尺度视觉Transformer，即CrossFormer。它引入了跨尺度嵌入层（CEL）和长短距离注意力（LSDA）。一方面，CEL将每个标记与不同尺度的多个补丁混合，为自注意力模块本身提供跨尺度特征。另一方面，LSDA将自注意力模块分为短距离和长距离部分，这不仅减少了计算负担，还保留了标记中的小尺度和大尺度特征。

CViT-开源

04-27

CViT-染色体查看工具。 Perl脚本的集合，可快速可视化链接组，伪染色体或细胞遗传图谱上的特征。旨在用于全基因组数据视图，但可用于创建单个染色体/连锁组，重叠群或BAC甚至蛋白质的图像-在骨架上定位的任何特征。...

Deepfake Video Detection Using Recurrent Neural Networks论文阅读笔记

qq_45631882的博客

12-14

1486

Deepfake Video Detection Using Recurrent Neural Networks论文阅读 David Güera Edward J. Delp Video and Image Processing Laboratory (VIPER), Purdue University Introduction ses a convolu-tional neural network (CNN) to extract frame-level features 使用CNN卷积神经网络提取帧级

《Deepfake Video Detection through Optical Flow based CNN》光流法检测假视频论文解析

小松与蘑菇

03-04

3485

如题，本篇论文是通过光流法，以CNN网络，对deepfake的视频进行检测真伪，deepfake相关介绍点击这里这篇文章使用如下结构文章提出，要fake视频和origin视频的差异在于，一个是计算机合成，一个是摄像机拍摄而成，而光流可以利用这种差异，在光流场中进行体现方法如下：对于t时间的帧 f(t),提取forward flow光流OF(f(t),f(t+1))用的CNN模型是PWC...

论文阅读：Exposing DeepFake Videos By Detecting FaceWarping Artifacts

weixin_42474594的博客

04-16

4740

论文阅读：Exposing DeepFake Videos By Detecting FaceWarping Artifacts 现在对于论文阅读还是比较头疼，很多翻译都很奇怪，还是要提高英语能力啊，心酸菜鸡在线叹气。这篇论文主要是给大家一些资料的收集整理，避免琐碎麻烦的工作，主要的干货也没有很多，如果要认真研究还需要自己自己阅读论文噢。本篇论文全文获取 Motivation 这篇文章是的主要出发...

深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（2）

最新发布

ak47maker的博客

06-05

259

本文针对ResNet18模型剪枝进行了优化改进，主要包含三个方面：1) 将剪枝目标层从底层conv1调整为中间层layer2.0.conv1，减少对基础特征的破坏；2) 采用基于激活值的前向传播方法评估通道重要性，优先剪除低激活通道；3) 改进微调策略，动态解冻关联层并使用更低学习率(0.0001)进行10轮微调。这些优化有效提升了剪枝后模型的稳定性和性能表现，特别是通过中间层剪枝和基于特征贡献的通道选择策略，避免了底层特征破坏带来的连锁反应。

NLP学习路线图（二十三）：长短期记忆网络（LSTM）

2501_91516851的博客

06-04

761

长短期记忆网络（LSTM）通过创新的门控机制解决了传统RNN的梯度消失问题。其核心是记忆单元和三个门（遗忘门、输入门、输出门），能够选择性保留长期依赖信息。相比RNN，LSTM的线性信息流使梯度有效传播，门控机制动态调节信息流动。LSTM在文本分类、序列标注、机器翻译等NLP任务中表现优异，并衍生出GRU、双向LSTM等变体。伪代码展示了LSTM单元的基本实现逻辑，包括门控计算和状态更新过程。

深度学习在非线性场景中的核心应用领域及向量/张量数据处理案例，结合工业、金融等领域的实际落地场景分析

mayaohao的博客

06-05

668

‌非线性建模不可替代性‌工业缺陷形态、市场动态、生物信号等复杂模式无法用线性方程描述310‌高维张量处理优势‌图像/点云/频谱等天然高维数据需张量结构存储，深度学习可分层提取非线性特征1112‌激活函数的核心作用‌ReLU/ GELU 等函数赋予模型分层次拟合复杂决策边界的能力38例如晶圆检测中，单个像素缺陷需联合周围100×100区域非线性特征（如纹理渐变、边缘突变）才能准确判定，此时CNN的多层非线性激活远优于线性分类器1011。

深度学习习题2

2301_78450837的博客

06-05

578

4.假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称（车辆共有10种类型）。造成这一现象的可能原因是什么？A、第一隐藏层对应D，第二隐藏层对应C，第三隐藏层对应B，第四隐藏层对应A。B、第一隐藏层对应A，第二隐藏层对应C，第三隐藏层对应B，第四隐藏层对应D。C、第一隐藏层对应A，第二隐藏层对应B，第三隐藏层对应C，第四隐藏层对应D。D、第一隐藏层对应B，第二隐藏层对应D，第三隐藏层对应C，第四隐藏层对应A。

PyTorch实战——基于生成对抗网络生成服饰图像

盼小辉丶的博客

06-01

860

我们已经学习了生成对抗网络 (Generative Adversarial Network, GAN) 的工作原理，接下来，将学习如何将其应用于生成其他形式的内容。在本节中，介绍使用 GAN 创建灰度图像，包括外套、衬衫、凉鞋等服饰，学习在设计生成器网络时如何镜像判别器网络。在本节中，生成器和判别器网络使用全连接层，全连接层的每个神经元都与前一层和后一层的所有神经元相连接。

深度学习实战110-基于深度学习的工业系统故障诊断技术研究（卷积网络+注意力机制模型）

微学AI的博客

05-30

372

工业系统故障诊断是确保现代工业设备安全稳定运行的关键技术环节。随着工业自动化和智能化水平的不断提高，传统故障诊断方法在应对日益复杂、多变的工业环境时显得力不从心。基于深度学习的故障诊断技术因其强大的特征学习能力和自适应性，已成为当前研究的热点和工业应用的前沿。本文将探讨一种融合卷积神经网络(CNN)和注意力机制的深度学习模型，用于工业系统故障诊断，包括项目背景、系统架构、技术原理、数据样例以及相关代码实现。

深度学习中的负采样

2302_76774649的博客

06-04

352

是一种在训练（尤其是在输出类别很多时）中，用来的方法。

python cvit 安装

02-22

### 安装 CViT 库对于希望在 Python 中安装 CViT (Conditional Vision Transformer) 库的情况，通常会遇到一些依赖性和环境配置的问题。如果尝试通过 `pip` 安装时遇到了诸如 "bad interpreter: No such file or directory" 这样的错误[^1]，这可能是由于 Python 解释器路径设置不当或者是 Conda 环境未正确激活所引起的。为了成功安装 CViT 或任何其他特定于计算机视觉任务的库，建议按照以下方法操作： #### 方法一：使用 pip 安装确保当前使用的命令行已经正确指定了 Python 解释器的位置，并且工作在一个干净的虚拟环境中。可以创建一个新的 Conda 环境来隔离项目所需的软件包版本。 ```bash conda create --name my_cvit_env python=3.8 conda activate my_cvit_env ``` 接着可以通过 PyPI 来查找是否有官方发布的 CViT 包。如果没有找到，则可能需要从 GitHub 上克隆源代码仓库并本地构建安装。 ```bash pip install git+https://github.com/your-repo/cvit.git@main ``` 请注意替换上面 URL 和分支名 (`main`) 为实际存在的地址。 #### 方法二：直接从GitHub或其他资源下载并安装当无法通过 `pip` 获取最新版或特定功能版本的时候，可以直接访问开发者维护的 Git 存储库页面，依照 README 文件中的指示来进行编译和安装过程。假设有一个名为 `cvit` 的项目托管在 GitHub 上，那么可以从那里拉取最新的源码并执行安装脚本： ```bash git clone https://github.com/someone/cvit.git cd cvit python setup.py install ``` 以上两种方式都可以解决因解释器问题而导致的安装失败情况。另外，在新服务器上重新建立开发环境之后，务必确认所有必要的依赖项都已经正确安装并且兼容现有的硬件条件。