论文笔记- DOA-GAN: Dual-Order Attentive Generative Adversarial Network for Image Copy-move Forgery Detec

最新推荐文章于 2023-02-27 22:16:52 发布

kingsleyluoxin

最新推荐文章于 2023-02-27 22:16:52 发布

阅读量996

点赞数

分类专栏：计算机视觉论文笔记深度学习文章标签：人工智能机器学习深度学习计算机视觉

本文链接：https://blog.csdn.net/kingsleyluoxin/article/details/108038683

版权

论文笔记同时被 3 个专栏收录

61 篇文章 1 订阅

订阅专栏

深度学习

57 篇文章 2 订阅

订阅专栏

计算机视觉

56 篇文章 4 订阅

订阅专栏

论文信息
- 标题： DOA-GAN: Dual-Order Attentive Generative Adversarial Network for Image Copy-move Forgery Detection and Localization
- 作者：Ashraful Islam, Chengjiang Long, Arslan Basharat, Anthony Hoogs
- 机构：Rensselaer Polytechnic Institute, Troy, NY; Kitware Inc., Clifton Park, NY
- 出处：CVPR 2020
代码链接
- None
论文主要贡献
- 提出了基于双阶注意力的 GAN 用于检测和定位图像中的 copy-move 操作
- 一阶注意力图是 location aware 的，探索位置信息，而二阶注意力图则是探索像素到像素的相互依赖性的，两个注意力图提供更具判别性的特征用于 copy-move 的检测和定位
- 实验结果表明，DOA-GAN 比 SOTA 方法更优，在针对多个数据集的检测和定位中性能卓越
论文要点翻译
- 摘要
  - 图像操作的主要目的可以将图像中特定部分进行隐藏或者复制，操作被称为 copy-move 操作
  - 发现精心构造的copy-move 的图像构造方式对于人类和机器都是比较困难的，例如：同一个背景中的某个物体可以使用相同背景去替换，实现消除物体的目的
  - 本文提出了一个 GAN 用于检测和定位 copy-move 的操作对象，使用的 GAN 结合了一个双阶的注意力模型
  - 再生成器部分，一阶的注意力模型用于捕捉 copy-move 对象的位置信息；二阶的注意力模型用于探索更多的 patch 一起共同出现的具有判别性的特征信息
  - 两个注意力图都是从仿射矩阵中提取的，被用于将位置特征和共现特征进行混合得到最后的检测和定位的分支，用于下一阶段的工作
  - 判别器用于进一步精确的定位结果
  - 本文是第一个使用这样的网络架构，结合来自仿射矩阵的一阶注意力机制
  - 实验结果强有力地说明了提出方法的有效性，并且达到了 SOTA 性能
- 引言
  - 数字图像的内容可以被简单的操作，例如 PS 或者 GIMP 这样的工具可以实现这些功能，这样的操作包含对图像中的某个物体或者相似内容的复制或者隐藏
  - copy-move 指的是一种图像操作，源区域被复制到另一个位置，实现对部分物体的添加或者隐藏，如果操作的是罪犯的图像信息，没有有效的取证工具调查员就可能被混淆，因此，需要有效的图像取证工具对 copy-move 进行检测和定位
  - 之前的 copy-move 检测方法主要包括传统的基于 patch 或者 block 的方法、基于关键点的方法、基于不规则区域的方法，这些方法可以得到相对较为合理的结果，但是得到的结果和真实的极具挑战的应用场景的需求还有一定的距离
  - 本文提出的双阶注意力模型的 GAN 用于 copy-move 的检测和定位，生成器是一个端到端的统一的框架，基于 DCNN 模型，给定输入的图像，基于提取的每个像素的特征向量计算输出的仿射矩阵，设计的一阶注意力用于生成第一阶的注意力图 A1，用于探索用于 copy-move 检测的位置信息，二阶注意力图 A2 用于捕获更精确的 patch 互相依赖性的信息，最终的特征表示通过两个注意力图进行形式化表示，然后输入到检测分支中生成预测掩膜，进而判别源区域和目标区域；同时，判别器被用于检查预测的掩膜和真实值之间的差异
  - 直观来说，双阶注意力机制用于将图像中所有相似区域进行高亮操作，不管是否被操作，这一阶段都识别处相似的区域；对操作无关的区域的识别进行区分，copy-move 操作相关的区域以及对应的源区域和目标区域在像素级的相似性更高，即使通过旋转、缩放等操作
  - 提出的双端注意力模型基于仿射矩阵，包含二阶的特征统计信息，在判别表示中具有关键作用，这个信息启发作者进一步在后续的二阶注意力模块中探索共现信息用于细粒度的区分，进而判断相同物体、纹理相似区域的 copy-move 操作
  - 文中观察到，更可能是 copy-move 区域的空间关系的 patch ，其远离对角线区域的元素通常具有更高的值，这个观察使得本文更加注意将 A1 用于提取 region-aware 的特征表示
  - 本文通过将每一列最大的 k 个值提取出来，形成 k 个通道的 3D 张量，优化和正则化放射矩阵；该张量被输入给简单的卷积层，形成最终用的一阶注意力图 A1，可以对源区域和目标区域给出更多关注，本文也是相关工作中第一个从仿射矩阵中提取一阶注意力信息的
  - 本文使用对抗训练生成更为精确的定位掩膜，随着训练 epoch 增长，生成器和判别器功能强化，预测的掩膜得到迭代优化，进而更加逼近真实值。因此，最终训练收敛后学习到的参数用于输出检测的置信度和预测的位置掩膜
- 相关工作
  - copy-move 的检测和定位：传统方法、DCNN 方法
  - 结合注意力机制的 GAN
- 方法
  - 端到端的统一网络用于 copy-move 区域的检测和定位
  - 给定输入图像 I 使用 4 个块的 VGG-19 作为骨干网络提取层次化的特征，并将这些特征放大到相同大小，一起组成特征 $F_{cat}$ ，利用该特征图，结合双阶注意力机制，计算一阶注意力图 A1 和二阶注意力图 A2；使用两个 ASPP 操作（不同参数的空洞空间金字塔池化模块）用于提取上下文信息，使用二阶注意力图获取共现特征，区域的注意力特征和共现特征混合后用于检测分支，计算输出分数，用于定位分支，生成响应的掩膜
  - 同时，网络使用判别器检测预测掩膜和真实值之间的差距，最终通过对抗训练的方法得到更好的结果
  - 生成器：
    - 给定图像输入，利用 VGG-19 的前三个块得到不同大小的层次化的特征然后 resize 到相同大小，提取特征后，为了计算图像不同部分的相关关系，计算仿射矩阵 $S=F_{cat}^{'}F_{cat}^{'T}$
    - 双阶注意力模块用于检测区域特征和贡献特征，S 在对角线上有相对较高的值。为了解决问题，定义操作 $KaTeX parse error: Expected group after '^' at position 8: G(i,j,i^̲',j^')=1-exp(\f…$
    - 最终得到的新的仿射矩阵 $KaTeX parse error: Expected group after '^' at position 2: S^̲'=S\bigodot G$
    - 利用 patch 匹配策略计算不同 patch 的匹配的可能性
    - ASPP 模块用于提取特征中的上下文信息，可以有效用于图像分割等任务，对于检测源区域和目标区域都很有效
    - 特征混合，将区域的 copy-move region aware 特征和区域共现特征组合用于检测和定位任务：对于区域检测特征，利用 ASPP 得到的特征和注意力图 A1 掩膜后的结果，对于共现特征则是 A2 与前一阶段结果掩膜后的结果，这样可以进一步探索不同 patch 的相互依赖性
    - 最终的操作通过 merge 模块实现
  - 检测分支和定位分支
  - 判别器网络
  - 损失函数
    - $\mathcal{L} = \mathcal{L}_{adv}+\alpha\mathcal{L}_{ce}+\beta\mathcal{L}_{det}$
    - 分别表示对抗损失、交叉熵损失、检测损失