BusterNet网络学习笔记四

No_one-_-2022

已于 2023-07-28 17:18:29 修改

阅读量267

点赞数 1

分类专栏： CMFD科研立项笔记文章标签：人工智能计算机视觉

于 2023-06-29 12:41:41 首次发布

本文链接：https://blog.csdn.net/m0_51143578/article/details/131424794

版权

CMFD科研立项笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

USC Information Sciences Institute 南加州大学信息科学实验室发表于 ECCV 2018

文章目录

5 Experimental Evaluation
6 Conclusion

$\mho=\left\{f_{1}, \cdots, f_{k}\right\}$

基于底层的特征提取和后续的匹配方案，复制-移动检测框架可以大致分类为三大类：基于patch/block的方法，如chroma特征[4,9]，PCA特征[14]，Zernike moments [26]， blur moments [20]， DCT [21]; 基于关键点的方法如SIFT[1,8,36]、ORB[40]、三角形[2]、SURF[22,27,28]，以及不规则区域的方法[16,25]。

在CMFD中，每个类别都有自己的优缺点。例如，基于块的方法被认为是简单的，但计算成本很高。相比之下，基于关键点的方法快速且对仿射变换具有鲁棒性。然而，当 $S$ 和 $D$ 是同质的 homogeneous 的时候，基于关键点的方法往往会失败。CMFD的通用架构有三个固有的限制:

(i)每个模块都是独立优化的，
(ii)依赖于手工制作的特征，这些特征可能不是下游任务的最佳特征，
以及(iii)包含一个或多个启发式或手动调整阈值，以减少误报并提高检测率。关于现有方法的详细比较，读者可参考[3,5,30,32]。

近年来，深度神经网络(DNN)已被应用于图像伪造检测研究。[18]在CMFD中使用DNN进行特征提取。[6]通过基于DNN的图像块分类器检测被操纵的区域（a DNN-based patch classifier）。[34]提出了一种端到端的DNN解决方案，用于剪接检测和定位。[39]使用DNN检测篡改人脸。

为了克服经典 CMFD pipeline 的缺点，如第2节所述，我们的目标是设计一个 DNN pipeline，它是

(i)端到端可训练的，这样它就不包括手动调整的参数和决策规则，
以及(ii)能够产生不同的源和目标操纵掩码(可用于司法调查)。

为了实现上述目标，一个有效的DNN解决方案应该同时获得两个特征属性，

(i)源和目标特征的差异足以区分源和目标，
(ii)它们也比原始区域的特征更相似。

当然，我们可以训练一个简单的DNN，同时希望它能神奇地获得这些属性。然而，更好的想法是明确地考虑这些属性，因此我们提出了BusterNet，一种双分支DNN架构，如图2所示。

在这里插入图片描述

具体来说，我们设计了Mani-Det分支来检测篡改区域，使其特征有利于属性(i)，而Simi-Det分支来检测克隆区域，使其特征实现属性(ii)，最后在 Fusion 中使用这两个特征来预测 pixel-level 复制移动掩码，区分原始、复制源和copy target类型。为确保这两个分支实现所需的功能，我们为每个分支定义了一个辅助任务，如图2中的虚线块所示。

更准确地说，Mani-Det和Simi-Det的任务分别是预测二进制篡改掩模 $M_{m}^{X}$ 和二进制复制移动掩模 $M_{s}^{X}$ ，这两个二进制掩码都可以从3类掩码 $M_{c}^{X}$ 中派生出来。为了简化讨论，我们假设我们的输入图像大小为 $256 \times 256 \times 3$ ，但BusterNet能够处理其他大小的图像。

3.2 篡改检测分支

篡改检测分支(即图2中红色阴影区域所示的Mani-Det)可以被认为是一种特殊的分割网络[19]，其目的是分割被操纵区域。更准确地说，它输入图像 $X$ ，使用 CNN Feature Extractor 提取特征，使用 Mask Decoder 将特征映射上采样到原始图像大小，并应用二进制分类器完成辅助任务，即生成一个篡改掩码 $M_{m}^{X}$ 。

任何卷积神经网络(CNN)都可以作为 CNN Feature Extractor。在这里，我们使用 VGG16架构[29]的前四个块，因为它的简单性。得到的CNN特征 $f_{m}^{X}$ 大小为 $16 \times 16 \times 512$ ，其分辨率远低于篡改掩码所需的分辨率。因此，我们需要对该特征进行解码，并通过图3所示的 Mask Decoder 应用反卷积[23]恢复原始分辨率，该解码器交替应用 BN-Inception 和 BilinearUpPool2D[33]，最终产生形状为 $256 \times 256 \times 6$ 的张量 $d_{m}^{X}$ 。需要明确的是，16倍的空间维度增加是由于的4次经过 BilinearUpPool2D (即 $2^4=16$ )，而输出过滤器维度6是由于最后一个BN-Inception(2@[5,7,11])，它连接了3个Conv2D响应，每个响应有2个输出过滤器，但分别使用(5,5)，(7,7)和(11,11)的内核大小(即3×2=6)。最后，我们通过二进制分类器预测像素级篡改掩码 $M_{m}^{X}$ ，他非常简单，就是单个Conv2D层，具有1个内核大小(3,3)的滤波器，然后是sigmoid激活。

在这里插入图片描述

BatchNorm 技术的使用，使得数据在从一层网络进入到另外一层网络之前进行规范化，可以获得更高的准确率和训练速度

3.3 相似性检测分支

相似度检测分支(即图2中蓝色阴影区域所示的Simi-Det)以输入图像 $X$ 为例，使用CNN Feature Extractor提取特征，通过自相关模块计算特征相似度，通过百分位池收集有用的统计数据，使用Mask Decoder将特征映射上采样到原始图像大小，并应用二进制分类器完成辅助任务。值得强调的是，在两个分支中共享的模块，例如 CNN Feature Extractor，只共享网络架构，而不共享权重。

与Mani-Det分支一样，Simi-Det分支通过CNN Feature Extractor从特征表示开始。它再次产生一个大小为 $16 \times 16 \times 512$ 的特征张量 $f_s^X$ ，也可以看作是 $16 \times 16$ patch-like features，即 $f_s^X=\left\{f_{s}^{X}\left[i_{r}, i_{c}\right]\right\}_{i_{r}, i_{c} \in[0, \cdots, 15]}$ ，每个都有 $512$ 维。因为我们的目标是恢复潜在的复制-移动区域，所以我们必须挖掘有用的信息来决定哪些是匹配的类补丁特征。为此，我们首先使用自相关计算所有到所有的特征相似性得分，并通过百分位池收集有意义的统计数据来识别匹配的补丁。

当 $f_m^X$ 与 Pearson 相关系数均为有意义时，很明显，如果 $f_m^X[i]$ 匹配，则某些分数 $S^X[i][j]$ 与 $\ne i$ 的值应该显著大于其余分数 $S^X[i][k]$ 与 $\notin \{i, j\}$ 的值。由于我们事先不知道对应的 $f_m^X[j]$ ，在DNN的背景下很难检查这种模式。换句话说，在排序后的分数向量中检查这个模式会更容易。具体来说，百分位池化首先将得分向量 $S^X[i]$ 按降序排序到 $S^{′X}[i]$ ，如Eq.(4)所示。

$S^{′X}[i]=\operatorname{sort}\left(S^{X}[i]\right)\tag{4}$

想象绘制关于 $\left(k, S^{\prime X}[i][k]\right)$ 的曲线，当 $k \in [0 ， \cdot\cdot\cdot ， 255]$ 时，如果 $f_m^X[i]$ 是匹配的，我们可以看到一条单调递减的曲线，在某一点突然下降。这表明这个排序版本的分数向量包含了足够的信息来决定什么特征是匹配的在未来的阶段。

我们可以直接将 $S^{′X}$ 提供给未来的模块来决定匹配的特征。然而这样做的一个缺点是，由此产生的网络失去了接受任意大小输入图像的能力，因为分数向量的长度取决于输入大小。为了消除这种依赖性，百分位池还通过只选择兴趣百分位的 scores 来标准化排序的分数向量。换句话说，不管原始排序分数向量的长度 $L$ 是多少，我们总是选择 $K$ 个分数来形成一个混合百分位分数向量 $P^X[i]$ ，如Eq(5)所示。

$P^{X}[i][k]=S^{X}[i]\left[k^{\prime}\right]\tag5$

上述标准化的另一个优点是降维，因为只保留了所有分数的一小部分。一旦完成百分位池化，我们使用掩码解码器逐渐将特征 $P^{X}$ 上采样到原始图像大小 $d^X_s$ ，二进制分类器生成复制-移动掩码 $M_s^X$ 来完成辅助任务。同样，掩码解码器和二进制分类器都有与Mani-Det相同的架构，但具有不同的权重。

私下里认为这个百分位池没有任何意义，根本无法固定向量大小

3.4 BusterNet Fusion

深度学习图像复制-粘贴检测任务，当前可以大致分为基于图像边界伪影和基于区域相似性两大类。

基于图像边界伪影检测方法是从人类识别图像真假过程入手，提取篡改区域与真实区域之间的不一致特征，经由深度学习模型进行预测分类。这类方法一般会进行图像预处理过程，如2016年Rao等人[36]提出的基于深度学习的图像复制-粘贴检测框架就使用了SRM高通滤波器，预处理过程的目的是屏蔽图像内容特征，提取图像高频信息，突出边缘特征。2017年Ouyang等人[53]提出使用迁移学习的方法解决篡改图像数据集过小的问题。该方法首先在ImageNet上进行预训练，然后再采用数量较小的复制-粘贴数据集进行微调，在图像真假分类上实现了较高的精度。

基于区域相似性检测方法将复制-粘贴区域定位问题转换为相似性匹配问题。这类方法通常以整个图像作为输入，提取图像中大量重叠的图像块进行相似性计算，从而找到相似性最高的区域。2018年Wu等人[54]便是基于这种思想设计完成了基于区域相似性匹配的图像复制-粘贴检测框架。不久后，Wu等人[55]对该方法再次进行了拓展，融合了基于边界伪影检测和区域相似性检测方法，提出了一种双流检测框架BusterNet。值得一提的是，该框架不仅可以同时定位两个相似区域，而且还可以区分源区域与篡改区域。

现在我们再思考一下，对于U-Net这样的一个网络结构，其效果为什么这么突出？

我们可以看到，它能够结合图像的全局与局部细节方面的特征，进行综合的考虑。
每经过几次卷积后，便会concatenate到后面的几层，直接传递到同高度decoder上进行信息融合。在刚开始卷积时，图像的feature map保留的是图像高分辨率的细节信息（病灶的具体形态，条状还是点状，边缘平滑亦或是粗糙等等），它能帮助最终我们的图像提供精细分割；而经过一次一次卷积池化后，最后在U-Net的最下层，此时的feature map中包含的是整幅图像的全局信息（病灶的总体位置、分布等），它能提供分割目标在整个图像中上下文语义信息，反应目标和周围环境之间的关系。

最后再经过一层一层上采样，将不同层级的信息一步一步融合，便可融合多尺度的信息，得到最终我们的判别分割结果。

5 Experimental Evaluation

5.1 Metrics and Baseline Settings

我们使用精度、召回率和 $F_1$ 分数来报告CMFD的性能[7,9,34]。对于测试图像，我们在像素级上计算 true positive(TP)，false positive(FP)和false negative(FN)。当然，我们必须将分类到源和目标的像素都视为伪造的，以便所提出的BusterNet可以与所有仅预测二分类掩码的经典CMFD方法进行公平的比较。

基于 $F_1$ 的计算方式，使用两种协议进行像素级评估：(A)汇总整个数据集的所有TP、FP和FN数字，并报告精度、召回率和 $F_1$ 分数[7,34]；和(B)计算精确率、召回率， $F_1$ 分数为每个图像，并报告平均分数[25]。

协议A更好地捕获了包括非伪造图像在内的整体性能，
而协议B仅适用于伪造图像的子集（ $F_1$ 分数在TP为零时定义不明确)，但更好地量化了定位性能。

我们在评估中使用了这两种协议。 如果测试图像中的任何像素被检测为伪造，则测试图像被标记为伪造。我们将预测的图像标签与其真实值进行比较，以计算图像级TP、FP和FN，并在整个数据集上报告精度、召回率和F1分数，作为图像级评估协议。

此外，我们使用接收者工作特征(ROC)曲线下的面积(AUC)来评估整体表现，其中ROC曲线是真阳性率(TPR)与假阳性率(FPR)的函数。AUC 量化了网络区分两个类别的总体能力。

ROC曲线是一种用于展示二分类模型在不同分类阈值下的表现的图形工具。ROC曲线的横坐标是假正例率（False Positive Rate，FPR），纵坐标是真正例率（True Positive Rate，TPR，即召回率）。

我们使用四种方法作为比较的基准（baselines for comparison）——基于块的具有 Zernike 矩特征的CMFD[26]，基于关键点的具有SIFT特征的CMFD[7]，dense field-based的CMFD[9]，以及深度匹配和验证网络(DMVN)[34]。所有方法的实现要么由论文作者提供，要么来自可靠的第三方在[7]中的实现。

5.3 Overall CMFD Performance Analysis

表2显示了CASIA CMFD数据集上的总体性能。Buster-Net的 $F_1$ 得分在所有三个评估协议上都大幅领先于其他所有人；它也是最快的解决方案。通过比较Simi-Det分支和完整BusterNet的性能，可以看到端到端微调（end-to-end fine-tuning）在像素级和图像级上将AUC提高了 $3-4\%$ ，如图5所示。

在这里插入图片描述

5.4 BusterNet Robustness Analysis

在这里插入图片描述

6 Conclusion

我们介绍了 BusterNet，这是一种端到端深度神经网络解决方案，用于检测有源/目标定位的复制-移动伪造图像，具有两个分支，如图2所示。展示了如何为每个分支设计辅助任务（auxiliary tasks），以确保其功能和特征属性。我们还演示了如何通过从域外数据集中合成大量真实和高质量的CMFD样本来克服训练数据短缺。我们的评估结果表明，BusterNet在很大程度上优于最先进的方法，并且对于各种已知的CMFD攻击也很健壮。更重要的是，与任何现有的CMFD解决方案相比，BusterNet在区分源/目标副本方面具有突出的优势。这是司法专家所期望的能力。