IJCAI23 Discrepancy-Guided Reconstruction Learning for Image Forgery Detection

一、Introduction&Related work

       现有方法的泛化能力有些受限,因为它们过分强调显式不同的结果(即篡改区域)特征的影响,这限制了它们的潜在使用范围。具体来说,仅学习某些特定类型的篡改模式远非实用,因为我们无法假设篡改方式。为了提高泛化能力,有助于学习一组紧凑的视觉模式,这些模式固有地包含一些一般的图像属性,例如同时的局部纹理、一致的区域分辨率和连续的明亮变化。对于图像伪造检测,为了实现这个目标,一些工作表明图像重构是一种有效的方法。重构输出具有丰富的紧凑模式,并抑制局部的篡改区域。然而,现有方法通常只配备一个重构Decoder,存在特征表示繁琐和推理能力不足的问题。

二、Method

在本文中,我们提出了一种新的图像伪造检测范式,称为差异引导重建学习(DisGRL),以提高模型对伪造成分的敏感程度和学习更加紧凑的真实特征。
DisGRL由四个组件组成:差异引导编码器(DisGE),解码器,双头重建(DouHR)模块和差异聚合检测器(DisAD)头网络

                    

 DisGE 包含一个主网络和一个辅助网络,主网络用来学习语义特征,辅助网络用来学习明晰的伪造痕迹。
在解码器中,Fi中采用三个渐进式注意力特征选择模块,连接来自相应编码器网络层的特征图,最终具有与F2相同的比例。DouHR使用注意力引导特征选择(AFS)进程和相似性聚合模块(SAM)分别提取基于视觉和基于推理的真正紧凑视觉模式。我们进一步引入了用于图像伪造分类的DisAD头部网络(参考第3.3节),该网络可以通过重建引导特征聚合(RFA)模块聚合获得的真实紧凑视觉图案,从而提高了对未知图案的伪造检测能力

2.1 Discrepancy-Guided Encoder (DisGE)

DisGE由主干网络和分支网络两个部分组成,主干网络是Xception结构,用于提取一般语义特征,使用辅助支提取显性痕迹。
DisGE 的输入:第一层是F_{1}, 余下几层都是对应Encoder层的输出和上一层DEA的输出通过拼接得到的新特征,DEA的具体操作如下图,第一个Conv2D 是一个3*3卷积,其中D^{'}=F-F_{d}
该特征的目的是捕捉差异信息
。reshape 和 1D 卷积之后,特征图上采样四倍(特征维度),最终通过残差连接得到最后的D。

                   

               

2.2 Double-Head Reconstruction (DouHR)

重建学习可以探索更加紧凑的视觉模式,这里在两个独立的空间中去使用Decoder去建立更加丰富紧凑的真实视觉模式。在DouHR 中的AFS和SAM,使用1*1 卷积将输出通道数调整为3,通过双线性插值将最后的特征图大小调整为输入特征图大小。

Attention-guidance Feature Selection (AFS)
AFS 通过卷积提取基于视觉的真正紧凑视觉模式, AFS的输入是上一层的AFS输入和对应Encoder层的输入按照通道拼接(如第四层Encoder 的特征对应第一层AFS)      
                       

                                          

送入DouHR 的AFS特征如上式:
\tilde{F}送入深度可分离卷积得到一个和特征大小相同的注意力图,通过该注意力图去并抑制解码器输出传输的不重要的特征信息的区域,关注genuie compact visual patterns。关注真实样例的视觉模式,压制噪声无关信息的干扰。。其中d3 是depthwise separable convolution,c3 是普通卷积。最后双线性插值到下一层的大小。

            

 Similarity Aggregation Module (SAM)
使用全局推理重建将全局信息加入特征中进行重建

 

 如上图所示,对F_{AFS_{3}}使用三个1*1 卷积得到通道数为16的特征                                                     


对F1进行下采样 得到和W_{\rho }一样的特征大小,再沿着通道进行softmax,得到一张通道数为1 的权重图,将其与特征点乘。最后做池化        

 之后,使用矩阵乘法和Softmax函数创建Fφ和Fw之间的相关性

将相关注意力图Fcor与特征图Fθ相乘,并将结果图馈送到图卷积纽特工作(GCN),将图域特征重构为原始结构特征如下,最后,将重构特征G′与特征Wρ(F)相结合,得到输出G。

 总结一下就是利用SAM补充全局信息对图像进行重建。 

2.3 Discrepancy-Aggregation Detector (DisAD)

Reconstruction-guidance Feature Aggregation (RFA)

RFA 结构如下图 主要是利用两个重建得到的\hat{X} 计算重建差 对其下采样再卷积 与DEA 的输出特征F_{e} 进行点积。并进行一系列后续操作得到最后的F_{RFA},将两种不同重建方式的F_{RFA}相加到一起得到最后的分类特征。

 2.4 Loss

DisGRL具有两种监督方式:基于交叉熵损失的图像级二分类标签(即Lcls),以及像素级重构学习标签。在训练过程中,我们使用重构损失(Lr1和Lr2来衡量真实图像和其两个重构图像之间的差异。此外,基于F5的度量学习损失(即Lm用于增强重构差异,以促进模型学习。因此,总损失可以表示为:

 三、实验

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值