[论文笔记] Learning Rich Features for Image Manipulation Detection
说在前面
个人心得:
- 第一次关注篡改检测,最常见的篡改方式是拼接、复制移动和删除。
- 本文提出一个双流Faster R-CNN,用于篡改区域的检测和类型识别。
- RGB和噪声双输入流,更好地利用一些潜在的特征。
- 利用双线性池化进行特征融合,效果不错
CVPR 2018,原文链接:http://arxiv.org/abs/1805.04953
一作开源源码:https://github.com/pengzhou1108/RGB-N
本文作于2020年10月14日。
摘要
Image manipulation detection is different from traditional semantic object detection because it pays more attention to tampering artifacts than to image content, which suggests that richer features need to be learned. We propose a two-stream Faster R-CNN network and train it end-to-end to detect the tampered regions given a manipulated image.
图像篡改检测不同于传统的语义对象检测,因为它更加关注篡改伪影而不是图像内容,这表明需要学习更丰富的特征。我们提出了双个输入流的Faster R-CNN网络,并对其进行端到端训练,以在给定图像的情况下检测被篡改的区域。
One ofthe two streams is an RGB stream whose purpose is to extract features from the RGB image input to find tampering artifacts like strong contrast difference, unnatural tampered boundaries, and so on. The other is a noise stream that leverages the noise features extracted from a steganalysis rich model filter layer to discover the noise inconsistency between authentic and tampered regions. We then fuse features from the two streams through a bilinear pooling layer to further incorporate spatial co-occurrence of these two modalities.
这两个输入流之一是RGB流,其目的是从RGB图像输入中提取特征,以发现篡改伪像,例如强烈的对比度差异、不自然的篡改边界等。另一个是噪声流,它利用从富含隐写分析的模型滤波器层中提取的噪声特征来发现真实区域和篡改区域之间的噪声不一致。然后,我们通过双线性池化层融合来自两个流的特征,以进一步合并这两种模式的空间共现。
Experiments on four standard image manipulation datasets demonstrate that our two-stream framework outperforms each individual stream, and also achieves state-of-the-art performance compared to alternative methods with robustness to resizing and compression.
在四个标准图像处理数据集上进行的实验表明,与对大小调整和压缩具有鲁棒性的替代方法相比,我们的两流框架胜过每个单独的流,并且还实现了最新的性能。
1. 引言
随着图像编辑技术和用户友好编辑软件的进步,低成本的篡改或操纵图像生成过程已变得广泛可用。在篡改技术中,剪接、复制移动和删除是最常见的篡改。图像剪接可从真实图像中复制区域并将其粘贴到其他图像,复制移动复制并粘贴同一图像中的区域,然后移除会从真实图像中消除区域,然后进行修补。有时,在这些篡改技术之后,将进行高斯平滑等后处理。这些篡改的示例如下图所示。即使进行了仔细的检查,人类仍然很难识别被篡改的区域。
结果,区分真实图像与篡改图像变得越来越具有挑战性。 针对该主题(图像取证)的新兴研究非常重要,因为它旨在防止攻击者将篡改的图像用于不道德的商业或政治目的。与旨在检测图像中不同类别的所有对象的当前对象检测网络相反,用于图像操纵检测的网络将旨在仅检测被篡改的区域(通常是对象)。我们研究如何通过探索RGB图像内容和图像噪声特征来采用对象检测网络来执行图像篡改检测。
图像取证的最新工作利用诸如局部噪声特征和“相机滤镜阵列”(CFA)模式之类的线索将图像中的特定面片或像素分类为是否受到篡改,并定位受篡改的区域。这些方法大多数都集中在一种篡改技术上。最近提出的基于LSTM的体系结构对篡改的补丁进行了分割,通过学习检测篡改边缘来显示对多种篡改技术的鲁棒性。在这里,我们提出了一种新颖的两流篡改检测框架,该框架不仅可以对视觉篡改伪像(例如,操纵边缘附近的篡改伪像)