jessIoss
每天进步一点点
展开
-
【CD】Collaborative Diffusion for Multi-Modal Face Generation and Editing
【多模态条件反射】提出了协同扩散,其中预训练的单峰扩散模型无需重新训练即可协同实现多模态人脸生成和编辑。通过我们的动态扩散器,该框架可以通过预测不同模态的相对影响,将任意单峰方法扩展到多模态范式。原创 2025-04-25 11:10:08 · 14 阅读 · 0 评论 -
【3dSwap】3D-Aware Face Swapping
在之前的工作[46]之后,我们使用三个不同的目标来监督一对输入图像x和重建x′(x′也是如此),包括像素级L1损失、学习感知图像路径相似性[58]损失LLP IP S和身份相似性损失Lid,最大化ArcFace估计的两个身份嵌入之间的余弦相似性[19]。对于人脸交换的任务,如果身份特征可以从潜在代码中的属性特征中分离出来,这是可取的。其中θ∗是EG3D生成器的参数,ds是源图像的方向,Mf是屏蔽面部区域的二值掩模,L(·,·)是包括MSE、LPIPS[58]和ID[19]损失的优化约束。原创 2025-04-12 18:16:31 · 164 阅读 · 0 评论 -
【Gram-Net】Global Texture Enhancement for Fake Face Detection In the Wild
分析中,我们计算了整个数据集的Pθd以获得统计结果,其中d∈{1,2,5,15,20}和θ∈{0,π/2,π,3π/2}表示{右、下、左、上},d和θ可以分别捕捉不同大小和方向的纹理的属性。卷积神经网络的判别区域(图2中的暖色区域)主要位于纹理区域,如皮肤和头发,而具有明显伪影的区域(图2的冷色、红色边界框)的贡献很小。表6中的结果表明,在更真实的数据集(FFHQ)和更强的GAN(StyleGAN)上训练的假图像检测器具有更强的能力,可以交叉到不太真实的数据集中(Celebra HQ)和不太强大的GAN。原创 2025-04-10 19:52:25 · 45 阅读 · 0 评论 -
【STIDNet】STIDNet: Identity-Aware Face Forgery Detection with Spatiotemporal Knowledge Distillation
实际上,音频数据在时间上编码了丰富的上下文信息,并且与说话面部视频中的视觉内容呈现出很强的相关性[36]、[47]、[55]、[56]。受[33]的启发,我们建议应用面部地标匹配策略进行增强。如图4(左)所示的知识提取过程,我们的多教师知识提取架构由两个预训练的教师网络SIE、TIE和一个学生身份提取器g组成,其中g是用于视频身份提取的轻量级视频骨干。在参考集小得多的情况下,我们的方法与数据集参考方法ICT-Ref相比也获得了具有竞争力的性能,这进一步证明了我们的方法在有限参考数据下的有效性和实用性。原创 2025-04-08 23:06:07 · 22 阅读 · 0 评论 -
【UIAVIT】UIA-ViT:Unsupervised Inconsistency-Aware Method based on VisionTransformer for Face ForgeryD
为了确定哪一层是进行伪造位置预测的MVG估计的最佳选择,我们训练了基线ViT-Base模型,并从不同的中间层提取补丁嵌入,以更新相应的MVG分布。为了保证来自我们网络的这种补丁嵌入捕获更多的局部纹理信息而不是高级语义信息,我们执行了如图5所示的几种可视化,最后利用UIA-ViT网络Block6(即K=6)的补丁嵌入FP来近似估计伪造位置图。我们选择不同的查询位置,并用所有补丁嵌入的关键字显示它们的注意力图。表示位置(i,j)的嵌入与位置(k,l)的其他补丁嵌入之间的一致性,值越高表示两个位置的一致性越高。原创 2025-03-26 11:41:57 · 27 阅读 · 0 评论 -
【LRN】Improving the Efficiency and Robustness of DeepfakesDetection through Precise GeometricFeatures
在分类过程中,我们的双流网络中的每个RNN都是双向的,由GRU(门控循环单元)组成,其输出单元的数量设置为k=64。我们可以从结果中得出结论,我们的方法对视频压缩的性能相对更稳定。给定来自以xi=[x,y]T为中心的帧i的小图像补丁Pi,其中来自帧i+1的另一个相同大小的补丁Pi+1,我们试图找到位移向量d=[dx,dy]T以最小化Pi和Pi+1之间的差异,然后我们可以获得跟踪预测xi+1=xi+d。原因在于,由校准的地标训练的模型可以更好地捕捉异常的面部运动,而不是地标检测器带来的噪声。原创 2025-03-17 11:21:06 · 41 阅读 · 0 评论 -
【Diffswap】Diffswap: Highfidelity and controllable face swapping via 3d-aware masked diffusion
我们证明我们的方法可以产生高保真的人脸交换结果,特别是在人脸形状和局部特征(眼睛,鼻子,嘴巴)上。3D人脸重建结果由描述形状,表情,姿态,纹理等的几个参数组成,这样我们就可以简单地将重建的目标人脸的形状替换为源人脸的形状,然后使用交换后的参数重建一个新的人脸,并获得相应的2D人脸标志点Lswqp,该标志点可以进一步输入我们的人脸交换模型。我们的框架在设计上是高度可控的,因为我们可以在推理过程中改变掩码M和条件输入C swap,因此,我们可以对M或C swap进行仔细的设计,以产生更可信的人脸交换结果。原创 2025-03-14 19:45:34 · 41 阅读 · 0 评论 -
【Diffusion】DiffusionFake: Enhancing Generalization in Deepfake Detection via Guided Stable Diffusion
这种预训练良好的模型可以有效地捕捉和量化图像之间的差异,为测量输入图像与其相应的源图像和目标图像之间的相似性提供可靠的依据。通过使用相应的特征指导源图像和目标图像的重建,引导模块有助于学习丰富和有区别的表示,从而提高伪造检测器在各种域和攻击类型中的性能。在每个时间步长t,模型学习预测添加到源或目标图像的潜在表示中的噪声。对于与目标更相似的样本,如NeuralTextures和Face2Face,由于它们包含的目标特征比例很高,相应的目标分数较高(大于0.95),而源分数较低,因为源特征的存在有限。原创 2025-03-12 11:19:40 · 75 阅读 · 0 评论 -
【CSR-Net】CatmullRom Splines-Based Regression for Image Forgery Localization
为IFL精心设计了一个定制的基于CatmullRom样条的回归网络(CSR Net),该网络首次尝试将回归方法引入像素级(本文中的IFL)。与依赖于边界框的传统检测方法相比,我们首先引入了CatmullRom拟合技术,该技术对目标区域中的控制点进行轮廓建模,从而实现了更准确、更高效的篡改区域定位。然后,为了抑制FP,设计了一种综合重新评分算法(CRA),利用分类评分和实例评分对精确的篡改区域进行过滤。此外,我们提出了一个名为垂直纹理交互感知(VTP)的可学习区域纹理提取模块,以进一步细化边缘。原创 2025-03-08 10:57:56 · 36 阅读 · 0 评论 -
【DF】Double Face: Leveraging User Intelligence to Characterize and Recognize AI-synthesized Faces
RQ1.人工智能合成的人脸图像是否包含用户通常感知到的伪影?【精确率】RQ2.人工智能合成的人脸图像中,合成伪影位于哪里?【伪影定位】RQ3.人工智能合成图像中感知到的伪影区域表现出哪些模式?【伪影模式】RQ4.如何使用用户感知来促进检测人工智能生成的人脸图像?【检测增强】开发了一种新方法,利用众包注释来系统地表征和识别人工智能合成的人脸图像。设计了一个用户研究来聚合和表征由多个用户(而不是单个研究人员或自动化系统)注释的AI合成伪影。原创 2025-03-03 17:15:31 · 25 阅读 · 0 评论 -
【ADD】ADD: Frequency Attention and Multi-View Based Knowledge Distillation to Detect Low-Quality Comp
ADD:在KD框架下探索频率注意提取和多视图注意提取来检测高度压缩的深度伪造。频率注意力帮助学生从老师那里获取并更多地关注高频成分。【KD】受切片沃瑟斯坦距离(Sliced Wasserstein distance)启发的多视角注意力,将学生的输出张量分布推向教师的输出张量分布,保持多个视角(切片)张量元素之间的相关像素特征。注:仅供学习交流。原创 2025-02-26 17:18:32 · 17 阅读 · 0 评论 -
【FST】Explaining Deepfake Detection by Analysing Image Matching
Q>0表示学习到的与伪影相关的视觉概念与源/目标无关的视觉概念的关系比源/目标相关的视觉观念更密切。设h(·)表示最终预测模块。如图4所示,在配对训练集上训练的模型具有较大的Qτ值,表明训练集中的FST匹配有效地帮助模型定位源/目标无关的视觉概念,并将其视为伪影相关。令人惊讶的是,如图2和表11所示,与隐式学习的伪影视觉概念相比,这种学习的视觉概念与视频压缩具有很高的一致性。具体来说,由于压缩,隐式学习的伪影视觉概念可能与压缩的源视觉概念和假图像上的目标视觉概念无法区分,导致深度假检测模型做出错误的预测。原创 2025-01-07 23:12:21 · 242 阅读 · 0 评论 -
【C2C+GRCC】Exploring Disentangled Content Information for Face Forgery Detection
我们观察到检测器可能不再挖掘难以捕获的伪影痕迹,而是过度拟合某些内容信息,从而导致泛化失败,这为人脸伪造检测带来了新的视角。【新视角吧】易于嵌入的内容信息去除解耦框架+内容一致性约束(C2C)+全局表示对比约束(GRCC)注:仅供学习交流。原创 2024-12-21 23:24:22 · 94 阅读 · 0 评论 -
【Survey】Deepfake Detection: A Comprehensive Survey from the Reliability Perspective
本文通过定义深度伪造检测研究的三个挑战:可转移性、可解释性和鲁棒性,对面向可靠性的深度伪造检测方法进行了全面的调查。在当前的研究领域尚未实现同时解决可转移性、可解释性和鲁棒性挑战的理想模型。注:仅供学习交流。原创 2024-12-10 22:17:00 · 76 阅读 · 0 评论 -
【FDFL】Discriminative Feature Mining Based on Frequency Information and Metric Learning Face
在我们的单中心损失SCL和softmax损失的共同监督下,网络能够学习一个嵌入空间,其中被操纵的人脸远离中心点,而自然的人脸聚集在中心点周围。虽然增强特征r和q的网络结构相似,但考虑到特征r和特征q的接收野的差异,我们使用了不同大小的卷积核。d)在具有softmax损失的SCL监督下,自然人脸的表示更紧密地聚集在一起,并且与类内紧密度较小的操纵人脸的表示分离。m为控制边距的超参数,D为特征维数。对于不同域的每个特征图,由于FFAGM的数据预处理保留了原始图像的结构信息,因此相同对应位置的特征是相互关联的。原创 2024-12-04 16:04:40 · 41 阅读 · 0 评论 -
【DFTM+DDAFM】Face Forgery Detection Based on Fine-grained Clues and Noise Inconsistency
然而,在人脸伪造检测的背景下,篡改区域往往很小,伪迹信息很微妙,直接应用传统的自关注机制可能会在不经意间关注真实区域而不是伪造区域。这种真实内容的意外聚合可能会掩盖微妙的伪造线索,最终影响检测的准确性。在给出的方程中,D和D - 1表示离散余弦变换(DCT)及其逆,⊙表示点积,σ(x) = {1−exp(−x)}/{1+exp(−x)}将x压缩在−1到1的范围内。在处理表示为X∈R (H×W×3)的输入图像时,首先使用一系列卷积层从图像中提取相关特征,从而生成浅特征F∈R ((H/4)×(W/4)×C)。原创 2024-11-28 16:04:18 · 114 阅读 · 0 评论 -
【FaceSigns】 Semi-Fragile Neural Watermarks for Media Authentication and Countering Deepfakes
一种基于深度学习的半脆弱水印系统,该系统可以证明数字图像的完整性并可靠地检测面部篡改。通过在训练过程中精心设计一组固定的可微分的良性和恶意转换,我们的框架实现了对现实世界图像转换的泛化性。注:仅供学习交流。原创 2024-11-20 10:50:23 · 58 阅读 · 0 评论 -
【FF++】FaceForensics++: Learning to Detect Manipulated Facial Images
低质量视频的挑战性案例也可以通过基于学习的方法来解决,在这种情况下,人类和手工制作的特征表现出困难。为了使用特定领域的知识来训练检测器,我们引入了一个新的被操纵面部视频数据集。聚焦于压缩的影响于最先进的操作方法的可检测性,为后续工作提出标准化基准。随着新的操纵方法日益出现,必须开发出能够在几乎没有训练数据的情况下检测出假货的方法。我们的数据库已经用于取证迁移学习任务,其中一个源操作领域的知识被转移到另一个目标领域,如Cozzolino等人[17]所示。注:仅供学习交流。原创 2024-11-11 22:19:40 · 340 阅读 · 0 评论 -
【EfficientNetB4】Video Face Manipulation Detection Through Ensemble of CNNs
解决了视频序列中面部操作的检测,目标是经典的计算机图形学以及深度学习生成的假视频。提出的方法从EfficientNet模型家族中获得灵感,并对最近提出的解决方案进行了改进,研究了使用两个主要概念训练的模型集合:(i)注意机制,该机制生成人类可理解的模型推理,同时提高了网络的学习能力;(ii)三连体训练策略,从数据中提取深层特征以获得更好的分类性能。未来的工作将致力于时间信息的嵌入。注:仅供学习交流。原创 2024-11-06 15:46:26 · 161 阅读 · 0 评论 -
【Keyframes】Deep Convolutional Pooling Transformer for Deepfake Detection
提出了一种新的深度卷积变压器,使用卷积池和重新注意技术来进行深度伪造检测中的局部和全局面部特征学习。证明了很少讨论的图像关键帧在图像特征学习中的重要性。普通的视频压缩会导致图像帧的信息丢失。【深入探索图像关键帧,研究局部和全局的决定性特征和关系,有助于进一步提高Deepfake检测的性能。原创 2024-11-04 14:17:56 · 84 阅读 · 0 评论 -
【Multi-modal】Experimental Results on Multi-modal Deepfake Detection
探索了通过分数级融合技术在SOTA的三种代表性方法上利用不同模型的互补性的可能性。注:仅供学习交流。原创 2024-11-01 15:45:39 · 84 阅读 · 0 评论 -
【ODSS】An Open Dataset of Synthetic Speech
考虑到数据保护和预处理要求,以及模型训练需要的先决条件,公共真实语言数据集是最合适的数据源。该数据集的主要缺点是生成的数据没有与真正的对应数据配对,并且在作者使用的参考数据集中找不到与合成声音对应的原始声音。生成的数据集是通过整理收集到的录音来构建的,这些录音经过规范化处理,例如,通过删除前导和尾音,对齐转录本,并调整音量。是由156个声音生成的合成语音,跨越三种语言,即英语、德语和西班牙语,具有平衡的性别代表性。为了解决数据短缺的问题,许多独立的研究机构基于志愿者的带注释的语音记录创建了多个语料库。原创 2024-10-22 21:22:10 · 127 阅读 · 0 评论 -
【SBIs】Detecting Deepfakes with Self-Blended Images
设I的高和宽分别为H和W。我们将调整后的图像的高度Hr和宽度Wr定义为Hr = uhH和Wr = uwW,其中uh和uw分别从[umin, umax]范围内的连续均匀分布U[umin, umax]中独立采样。其次,由于引入这些方法是为了学习面向表示,即BI中的混合边界和I2G中的源特征一致性,因此用于鲁棒深度伪造检测的学习的工件可能仅用于混合图像中的伪影是不够的。为了可视化模型在锻造面上的注意力,我们将GradCAM++[12]应用于FF++的操纵帧上的模型,即DF, F2F, FS和NT,如图5所示。原创 2024-10-22 10:34:42 · 218 阅读 · 0 评论 -
【AV-Deepfake1M】AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
使用Whisper进行语音识别花费了约600 GPU小时[48],训练VITS花费了约2100 GPU小时[33](721个VITS模型中的每个模型都需要约3小时),数据生成花费了约300 GPU小时。先前数据集[6,31]使用的SV2TTS[27]等零镜头语音克隆方法信噪比低,导致低质量的音频操作,容易被BA-TFD[4]和UMMAFormer[75]定位。对来自Voxceleb2[14]数据集的真实视频子集进行预处理,使用FFmpeg[58]提取音频,然后使用基于whisper[48]的真实文本生成。原创 2024-10-20 23:09:28 · 223 阅读 · 0 评论 -
【HAD】Half-Truth: A Partially Fake Audio Detection Dataset
它包括来自218名中国普通话母语者(175名女性,43名男性)的88035个话语,约85小时的录音。CQCC特征包括29个附加能量的CQCC系数(C0或0倒谱系数)和7种不同的静态、增量和加速度参数组合。与基于LCNN的话语级LCNN分类器相比,基于LCNN的帧级判别器的架构只是没有池化层。这些指标基于每个片段的持续时间。数据包含不同的区域口音:南方口音(southern),北方口音(northern)和其他口音(other)。实体有四种:人(PER)、地点(LOC)、组织(ORG)和时间(time)。原创 2024-10-19 16:28:07 · 256 阅读 · 0 评论 -
【DDT】Generalized Zero and Few-Shot Transfer for Facial Forgery Detection
为了将每个类建模为一个分布,我们学习了一个具有非重叠均值的多模态高斯分布,这强制每个分量εc在其自己的空间中充当单模态分布。通过学习一个单一的多模态分布,我们得到了许多单模态分布εc,每一个都代表一个特定的类c,我们称之为原型多模态分布。对于二元分类情况,该模型学习将每个数据点投影到潜在空间z,其中每个数据点仅映射到双峰分布N (m0,I)为真和N (m1,I)为假,每个组件将代表一个类。对于目标域T,将少数可用的训练样本与之前用于学习源域S的相同原型分布关联起来,根据它的类标签。Σi)在这个嵌入空间。原创 2024-10-18 09:14:10 · 77 阅读 · 0 评论 -
【可看】On the Generalization of GAN Image Forensics
网络的输入是真实图像和假图像,图像大小为128x128。该网络是一个二值分类器,有四个卷积层,所有卷积步幅为2,填充为1,所有卷积核大小为4x4。通过对真假图像进行相似的图像级预处理,破坏不稳定的低电平噪声线索,迫使取证模型学习更多的内在特征来对生成的和真实的人脸图像进行分类。图像预处理操作位于整个网络架构的前面,其中图像预处理操作可以是平滑滤波或添加噪声。,从而迫使取证分类器学习更多内在和有意义的特征,而不是生成模型的风格。方法的网络架构使用一个简单的DCGAN[17]网络的鉴别器网络。原创 2024-10-17 09:33:21 · 208 阅读 · 0 评论 -
【IRV2】Deepfake video detection using InceptionResnetV2
这项工作旨在确定通过迁移学习设计的深度学习模型如何有效地准确区分人工智能生成的深度伪造视频和摄像机捕获的真实视频。【基于迁移学习的DL模型的性能如何】使用了InceptionResNet-V2迁移学习模型注:仅供学习交流。原创 2024-10-16 22:20:02 · 127 阅读 · 0 评论 -
【E+CC ViT】Combining EfficientNet and Vision Transformers for Video Deepfake Detection
使用预训练的权重初始化Efficientnet B0特征提取器,并对其进行微调,以允许网络的最后一层为这个特定的下游任务执行更一致和合适的提取。与它们不同的是,我们提取的面总是正方形的,没有填充。本文提出的两个体系结构以一种监督的方式进行训练,以区分真实的和真实的伪造案例。训练集包括FaceForensics++的所有考虑方法的假视频和DFDC数据集的训练视频,用于计算模型的准确性度量,分别报告。卷积交叉ViT使用两个不同的分支:s分支处理较小的斑块,l分支处理较大的斑块,以获得更宽的接受域。原创 2024-10-15 22:53:28 · 85 阅读 · 0 评论 -
【M2TR】M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection
提出【M2TR】,使用多尺度变压器捕获多尺度下细微的局部不一致性并使用频率滤波器提高对图像压缩的鲁棒性。通过交叉模态融合块自适应融合两流伪造特征。提出一个数据集SR-DF并分析评价注:仅供学习交流。原创 2024-10-11 19:57:52 · 268 阅读 · 0 评论 -
【DFDT】DFDT: An End-to-End DeepFake Detection Framework Using Vision Transformer
在重叠斑块提取方法中,每个给定的分辨率为(H, W)和C通道的图像I∈RH×W×C,被分割成N个分辨率为(P, P)和C通道的图像,Ip∈RP×P×C,使用步长S的滑动窗口。每个相邻的斑块共享一个面积为P× (P−S)的区域。不同的深度伪造生成技术在伪造过程中针对面部区域的不同比例和区域,从嘴唇的颜色不匹配等小区域到整个图像的较大区域,如面部交换方法中的面部边界。低级的transformer块从大量的小尺寸提取的斑块中学习,而高级的transformer块从更大的图像斑块中学习更多的全局特征。原创 2024-10-08 09:52:09 · 98 阅读 · 0 评论 -
【MaskGAN】MaskGAN: Towards Diverse and Interactive Facial Image Manipulation
关键观点是,语义掩码作为一种合适的中间表示,用于具有保真度的灵活面部操作。MaskGAN在两个具有挑战性的任务上进行了综合评估:属性转移和样式复制。注:仅供学习交流。原创 2024-10-06 17:09:29 · 278 阅读 · 0 评论 -
【Cross-Forgery】Cross-Forgery Analysis of Vision Transformers and CNNs for Deepfake Image Detection
这种情况下,两种模型在未处理的图像上的性能都明显下降。这可能源于这样一个事实,即这种特定的方法特别有效,并且比数据集中存在的其他方法引入的异常更少,从而使真实图像和操纵图像之间的差异更加细微。在几乎所有情况下,EfficientNet在训练方法上都达到了更高的精度水平,这可能是因为它已经学会了更好地识别这些方法中引入的特定异常,所有包含不同异常的图像都被认为是非深度假的。该模型是在真实图像和使用单一deepfake生成方法处理的图像上训练的,将deepfake的概念推广到识别被其他方法篡改的图像的程度。原创 2024-10-03 17:04:04 · 76 阅读 · 0 评论 -
【CViT】Deepfake Video Detection Using Convolutional Vision Transformer
选择cnn和transformer联合学习,cnn擅长局部特征学习,transformer可以从局部喝全局特征学习。使我们的模型能够关联图像的每个像素,并理解非局部特征之间的关系。在训练和分类过程中同样重视数据预处理。使用了最大和最多样化的数据集进行Deepfake检测。CViT模型在从DFDC数据集中提取的各种面部图像集合上进行训练。还有在其他数据集扩展的发展前景。注:仅供学习交流。原创 2024-10-02 12:03:48 · 215 阅读 · 0 评论 -
【FakeTagger】FakeTagger: Robust Safeguards against DeepFake Dissemination via Provenance Tracking
为主动对抗DeepFakes提出了新的见解。除了使用提出的FakeTagger进行DeepFake溯源跟踪之外,值得探索的是,FakeTagger是否可以用于其他对手模式上的溯源跟踪,例如从对抗性天气元素(如雨[64]和雾霾[16]),图像退化模拟对抗性攻击(如对抗性暴露[5,52],渐消[53],模糊[19],颜色抖动[15]等)的非加性对抗性攻击。注:仅供学习交流。原创 2024-09-30 17:36:57 · 90 阅读 · 0 评论 -
【FakeCatcher】FakeCatcher: Detection of Synthetic Portrait Videos using Biological Signals
提出了一种基于生物信号的伪造人脸视频检测器FakeCatcher。提出了一个数据集Deep Fakes Dataset。通过实验验证了这些信号的空间相干性和时间一致性在gan生成的内容中没有得到很好的保存。我们能够创建一个基于生理变化的鲁棒合成视频分类器。此外,我们将这些信号封装在新颖的PPG地图中,以允许开发基于cnn的分类器,这进一步提高了我们的准确性,并且与任何生成模型无关。原创 2024-09-26 10:59:51 · 140 阅读 · 0 评论 -
【LTW】Domain General Face Forgery Detection by Learning to Weight
基于元学习策略构建加权学习(LTW)框架【从样本差异的角度考虑泛化的】。注:仅供学习交流。原创 2024-09-22 23:16:27 · 131 阅读 · 0 评论 -
【OST】OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training
【疑问:这种泛化是广义上的真正泛化吗】由于伪训练样本是按照现有的deepfake管道合成的,因此我们的方法无法应用于按照其他协议创建假图像的场景。未来的工作是开发针对深度伪造和gan合成假图像的方法。同时,我们将DLIB应用于伪造合成流水线中,对人脸特征点进行检测和提取。考虑到DLIB在某些情况下可能会失败,同时也可能导致OST失败。注:仅供学习交流。原创 2024-09-20 11:04:39 · 86 阅读 · 0 评论 -
【ViT+Dis】Deepfake Detection Scheme Based on Vision Transformer and Distillation
该方案在补丁嵌入级和蒸馏技术上结合了VIT和EfficientNet注:仅供学习交流。原创 2024-09-17 11:57:48 · 181 阅读 · 0 评论 -
【EN+CC ViT】Combining EfficientNet and Vision Transformersfor Video Deepfake Detection
使用预训练的权重初始化EfficientNet B0特征提取器,并对其进行微调,以允许网络的最后一层为这个特定的下游任务执行更一致和合适的提取。从EfficientNet B0卷积网络中提取的特征简化了Vision Transformer的训练,因为CNN特征已经嵌入了图像中重要的低级和局部信息。最后,使用与两个分支的输出相对应的CLS令牌生成两个独立的日志。,它处理s分支的7×7图像补丁,处理l分支的56 × 56图像补丁。S分支处理较小的斑块,L分支处理较大的斑块,以获得更宽的接受域。原创 2024-09-12 19:11:32 · 177 阅读 · 0 评论