【图像篡改检测1】Learning Rich Features for Image Manipulation Detection

最新推荐文章于 2023-06-10 11:44:26 发布

二十二画小生

最新推荐文章于 2023-06-10 11:44:26 发布

阅读量4.6k

点赞数 4

分类专栏：图像篡改检测文章标签：人工智能图像篡改检测深度学习 Manipulation

本文链接：https://blog.csdn.net/weixin_43343116/article/details/107497378

版权

图像篡改检测专栏收录该内容

3 篇文章 6 订阅

订阅专栏

前言

今天阅读的论文是《Learning Rich Features for Image Manipulation Detection》这可以算是图像篡改检测领域的一部经典之作。

Abstract

首先说明了图像篡改检测不同于显著性检测的一个很重要的区别在于：需要学习到更加丰富的特征

it pays more attention to tampering artifacts than to image content, which suggests that richer features need to be learned

所以在网络的设计上面采用了two-stream R-CNN network，所谓two-stream是指RGB-stream和Noise-stream，然后使用bilinear pooling将两者的特征进行融合这是该篇文章的核心思想。

下面我们就来自己看看这篇论文

Introduction

该部分主要给初学者介绍，这里简单介绍一下：

有三种类型的篡改：

拼接指的是把别的图里面的某个物体拼接到另一张图上。
复制移动是同一张图上，进行部分区域的拷贝，然后放到该图中的其它地方。
去除是指对像素进行修改，将某部分图像“移除”。

Related Work

从这部分内容我们简单介绍一下前人的主要技术：

CFA color array analysis
local noise analysis
probailistic model to estimate the DCT coefficients andquantization factors for different regions
steganalysis rich model(SRM)，基于此方法的技术也有很多，但是他们中的大多数都只是聚焦在特定的篡改类型，本文的也借鉴了这一技术，使用SRM filter kernel中的3个kernel来提取噪声信息，而且噪声域能够更好的体现tamper trace

2 Main Network

在这里插入图片描述
这是本文提出的方法，双流Faster R-CNN网络：

如上图所示，橘黄色的箭头连起来的是RGB流，蓝色的箭头连起来的是噪声流。每个单独的流其实都是一个Faster R-CNN。
RGB流以RGB图像作为输入，利用对象边缘的异常高对比度（解释1），并将边界框回归到真实值。
噪声流首先通过将输入RGB图像传递通过SRM滤波器层（解释2）来获得噪声特征图，并利用噪声特征来为操纵分类提供额外的证据。
RGB和噪声流共享来自RPN网络的相同区域提议，但RPN网络仅使用RGB特征作为输入（就是黄色箭头指向了RPN layer的那里）（解释3）。
RoI池化层从RGB和噪声流中选择空间特征。预测的边界框（表示为’bbx pred’）是从RGB RoI特征生成的。在RoI池之后的双线性池化层使网络能够组合来自两个流的空间共现特征。最后，通过完全连接的层和softmax层传递结果，网络产生预测的标签（表示为’cls pred’）并确定预测区域是否已被篡改。

在这里插入图片描述

解释1：看上图第一行第二个，棒球手的裤边，这里就是异常的高对比度。

解释2：图像在输入到噪声流前要先经过SRM过滤器过滤，得到局部噪声特征，才能作为噪声流的输入。看上图第二列。

解释3：为什么只选择RGB特征作为RPN（区域候选模块）的输入呢？因为：是由实验对比出来的选择。本文作者做了单流网络、RPN采用不同输入的双流网络在检测篡改区域上的对比实验。结果如下表，不仅表明双流比单流的效果出色，也表明了仅采用RGB特征作为RPN输入的双流的效果是最好的。
在这里插入图片描述

2.1 RGB Stream

如上图，橙色箭头表示RGB-Stream的信息流。在本文中，使用的是ResNet 101 提取RGB 域的特征，提取的特征将用于bounding box regression & manipulation classification.
在这里插入图片描述
在这个公式中：
gi：anchor i 是该块区域是篡改区域的概率
gi*：
fi：

2.2 Noise Stream

在这里插入图片描述
这是借鉴的一篇论文里边的内容，但是只使用其中的三个filter

2.3 Loss

双线性池化（常常被用在细粒度分类任务中）把RGB流和噪声流结合到一起的同时保留了空间信息。在这里插入图片描述
下面是总的Loss

3 实验

当前的标准数据集没有足够的数据用于深度神经网络训练。为了在这些数据集上测试提出的网络，作者在合成数据集上预先训练模型。

1.使用COCO中的图像和注释自动创建合成数据集。最后，作者创建了42K篡改和真实的图像对。分开训练集和测试集。

2.模型的输出是带有置信度分数的边界框，表示检测到的区域是否已被篡改。要在感兴趣区域（RoI）中包含一些真实区域以便更好地进行比较，作者会在训练期间将默认边界框略微放大20像素，以便RGB和噪声流都能够了解篡改区域和真实区域之间的不一致性。

3.在这个合成数据集上端到端地训练我们的模型。在Faster R-CNN中使用的ResNet 101在ImageNet上进行了预训练。作者使用平均精度（AP）进行评估，其度量与COCO 检测评估相同。

3.1 在标准数据集上的实验

NIST16：该数据集包含了之前提到的三种图像篡改手段，对该数据集中的操作进行后处理以隐藏可见迹线。它们还提供用于评估的真实值篡改掩模。

CASIA：提供各种对象的拼接和复制移动（ copy-move ）图像。仔细选择篡改区域，并且还应用诸如过滤和模糊的一些后处理。通过对篡改图像和原始图像之间的差异进行阈值处理来获得地面实况掩模。本文使用CASIA 2.0进行训练，使用CASIA 1.0进行测试。

COVER：是一个相对较小的数据集，专注于copy-move.它覆盖与粘贴区域类似的对象，以隐藏篡改区域（参见图1中的第二行）。提供真实值掩模。

Columbia：哥伦比亚数据集侧重于基于未压缩图像的拼接。提供真实值掩模。

为了在这些数据集上微调本文的模型，本文从真实值掩模中提取边界框。训练集和测试集的划分：
在这里插入图片描述

3.2 Baseline Models

ELA：一种错误级别分析方法，旨在通过不同的JPEG压缩等级找出篡改区域和真实区域之间的压缩误差。
NOI1：基于噪声不一致的方法，使用高通小波系数来模拟局部噪声。
CFA1：CFA模式估计方法，它使用附近的像素来近似相机滤波器阵列模式，然后产生每个像素的篡改概率。
MFCN：基于多任务边缘增强FCN的网络使用边缘二进制掩码和使用篡改区域掩码的篡改区域联合检测篡改边缘。
J-LSTM：基于LSTM的网络联合训练补丁级别篡改边缘分类和像素级别篡改区域分割。
RGB Net：单个Faster R-CNN网络，RGB图像作为输入。即，我们的RGB Faster R-CNN流。
噪声网：单个Faster R-CNN网络，其噪声特征映射作为从SRM滤波器层获得的输入。在这种情况下，RPN网络使用噪声特征。
Late Fusion：直接融合，结合RGB Net和噪声网络的所有检测到的边界框。来自两个流的重叠检测区域的置信度得分被设置为最大值。
RGB-N：用于操作分类的RGB流和噪声流的双线性池和用于边界框回归的RGB流。即本文的完整模型。

3.3 评价指标

在这里插入图片描述

3.4 实验结果

在这里插入图片描述
表3显示了本文的方法和baseline model之间的F1分数比较
表4提供了AUC比较。
从这两个表中可以清楚地看出，本文的方法优于传统方法，如ELA，NOI1和CFA1。这是因为它们都专注于特定的篡改类型，这些篡改类型仅包含用于本地化的部分信息，这限制了它们的性能。本文的方法在哥伦比亚和NIST16数据集上优于MFCN。
表3也能看出双流的性能比单流好。
在这里插入图片描述
表5：不同数据增强方法对性能的影响。图像翻转提高了性能，而JPEG压缩和噪声等其他增强方法对性能几乎没有改进。

表6 ：在resize 和经过jpeg 压缩后的数据上进行实验，本文的方法表现最优。

表7 ：移动复制对本文来说是最难检测的篡改技术。解释是，一方面，复制的区域来自同一图像，这产生类似的噪声分布以混淆我们的噪声流。另一方面，这两个区域通常具有相同的对比度。而且，该技术理想地需要将两个对象彼此进行比较，这是当前方法不能做到的。因此，我们的RGB流没有证据来区分这两个区域。

3.5 实验结果

在这里插入图片描述

总结

在这里插入图片描述

提出了双流的网络
使用了SRM filter提取噪声特征
网络能力有限，对于多种篡改类型检测、copy-move等类型的检测不是很好：个人认为其原因在于问题定义，与[CVPR 2020 ManTra-Net: Manipulation Tracing Network For Detection And Localization of Image Forgeries With Anomalous Features]这篇论文对比可以体现出来
但是论文的设计思路是清晰的，可以借鉴的是如何把一个完整的问题拆分为子问题，并且这些子问题尽可能的做到正交，当然几乎不能做到完全的正交，所以还要采取措施来补救非正交的那部分。在本文中的体现就是设计RGB Noise 双流网络（拆分问题），双线性池化（补救措施）

二十二画小生

关注

4
点赞
踩
49

收藏

觉得还不错? 一键收藏
2
评论
【图像篡改检测1】Learning Rich Features for Image Manipulation Detection

前言今天阅读的论文是《Learning Rich Features for Image Manipulation Detection》这可以算是图像篡改检测领域的一部经典之作。Abstract首先说明了图像篡改检测不同于显著性检测的一个很重要的区别在于：需要学习到更加丰富的特征it pays more at- tention to tampering artifacts than to image content, which suggests that richer features need
复制链接

扫一扫

专栏目录