UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization

最新推荐文章于 2024-07-11 15:29:24 发布

二苏旧局吖

最新推荐文章于 2024-07-11 15:29:24 发布

阅读量212

点赞数 1

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_37246721/article/details/134416797

版权

一、研究背景
现有deepfake检测模型主要针对完整视频做二分类，使其难以在工业场景中应用。
现有deepfake检测模型大多只对单模态数据和人脸相关数据做检测。
temporal forgery localization (TFL)
temporal action localization (TAL)

二、研究动机
需要开发能够准确定位操纵边界的技术，促进AIGC任务的可靠应用。
基于Transformer的模型可以适应不同模态的特征输入。

三、研究目标
定位被操纵片段的开始和结束时间戳，帮助用户更好地理解检测结果。
提出针对图像修复场景的操纵定位数据集。

四、技术路线
UMMAFormer：在时间维度上对多种模态的输入进行定位。
在这里插入图片描述

1.Temporal Feature Abnormal Attention（TFAA）：关注时间维度的异常
训练阶段：学习真实数据的分布
推理阶段：利用注意力机制关注重建出的异常片段
在这里插入图片描述
（1）Reconstruction Learning

Deep Convolutional AutoEncoder (DCAE)：只重建真实数据
对输入数据进行编码( $f_E$ )解码( $f_D$ )操作：特征降维得到 $Z$ 、特征重建得到 $\hat{F}$
利用 $L_{rec}$ 约束原始数据和重建数据
利用focal loss约束真实样本间的一致性： $p_t$ 为属于伪造样本的概率

（2）Cross-Reconstruction Attention Transformer（CRA）

不同类型携带的信息量不同，可能导致真样本有较大重构误差
伪造片段会与真实样本极其相似，导致较小的重构误差
因此利用交叉重构注意力计算原始输入特征与重构特征的相似度分数，替代重构误差
加入位置编码，得到位置敏感特征 $F_{pe}$ 、 $\hat{F}_{pe}$
计算相似度矩阵
$F_{ea}$ 经过LN、FFN得到 $F_{crat}$

2.Parallel Cross-Attention Feature Pyramid Network（PCA-FPN）：增强网络对短片段的识别、定位能力

特征融合
解决特征融合中的噪声问题

3.Temporal Video Inpainting Localization dataset（TVIL）

五、实验结果

二苏旧局吖

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
2
评论
UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization

2.Parallel Cross-Attention Feature Pyramid Network（PCA-FPN）：增强网络对短片段的识别、定位能力。现有deepfake检测模型大多只对单模态数据和人脸相关数据做检测。需要开发能够准确定位操纵边界的技术，促进AIGC任务的可靠应用。定位被操纵片段的开始和结束时间戳，帮助用户更好地理解检测结果。基于Transformer的模型可以适应不同模态的特征输入。UMMAFormer：在时间维度上对多种模态的输入进行定位。提出针对图像修复场景的操纵定位数据集。
复制链接

扫一扫