一、研究背景
1.前沿方法开始探索预训练模型的优点,且只训练一个单独的分类器,例如,结合冻结的CLIP-ViT与可学习的线性层。
2.由于缺乏对伪造任务的适应,上述固定的范式不能充分学习得到伪造相关表征。
二、研究目标
1.提升泛化性。
三、研究动机
1.由于图像和频率分析对合成图像检测都是必不可少的。
2.将图像特征和文本嵌入纳入对比目标可以提升泛化性。
四、技术路线
1.为了在图像域和频率域内发现并聚合局部伪造痕迹,引入伪造感知适配器来适应图像特征。
- 利用卷积提取图像特征
- 利用离散小波变换提取不同频段频域特征
- 聚合图像特征与频域特征
2.为了提升泛化性,引入语义引导的对齐模块来监督图像和文本的伪造适应。
- Patch-based enhancer
p p b e p_{pbe}