UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization

一、研究背景
现有deepfake检测模型主要针对完整视频做二分类,使其难以在工业场景中应用。
现有deepfake检测模型大多只对单模态数据和人脸相关数据做检测。
temporal forgery localization (TFL)
temporal action localization (TAL)

二、研究动机
需要开发能够准确定位操纵边界的技术,促进AIGC任务的可靠应用。
基于Transformer的模型可以适应不同模态的特征输入。

三、研究目标
定位被操纵片段的开始和结束时间戳,帮助用户更好地理解检测结果。
提出针对图像修复场景的操纵定位数据集。

四、技术路线
UMMAFormer:在时间维度上对多种模态的输入进行定位。
在这里插入图片描述

1.Temporal Feature Abnormal Attention(TFAA):关注时间维度的异常
训练阶段:学习真实数据的分布
推理阶段:利用注意力机制关注重建出的异常片段
在这里插入图片描述
(1)Reconstruction Learning

  • Deep Convolutional AutoEncoder (DCAE):只重建真实数据
  • 对输入数据进行编码( f E f_E fE)解码( f D f_D fD)操作:特征降维得到 Z Z Z、特征重建得到 F ^ \hat{F} F^
  • 利用 L r e c L_{rec} Lrec约束原始数据和重建数据
    在这里插入图片描述
    在这里插入图片描述
  • 利用focal loss约束真实样本间的一致性: p t p_t pt为属于伪造样本的概率
    在这里插入图片描述

(2)Cross-Reconstruction Attention Transformer(CRA)

  • 不同类型携带的信息量不同,可能导致真样本有较大重构误差
    伪造片段会与真实样本极其相似,导致较小的重构误差
  • 因此利用交叉重构注意力计算原始输入特征与重构特征的相似度分数,替代重构误差
  • 加入位置编码,得到位置敏感特征 F p e F_{pe} Fpe F ^ p e \hat{F}_{pe} F^pe
  • 计算相似度矩阵
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • F e a F_{ea} Fea经过LN、FFN得到 F c r a t F_{crat} Fcrat

2.Parallel Cross-Attention Feature Pyramid Network(PCA-FPN):增强网络对短片段的识别、定位能力

  • 特征融合
  • 解决特征融合中的噪声问题

3.Temporal Video Inpainting Localization dataset(TVIL)

五、实验结果

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二苏旧局吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值