【论文笔记】(De)Randomized Smoothing for Certifiable Defense against Patch Attacks

最新推荐文章于 2024-05-08 09:41:48 发布

Hosee0716

最新推荐文章于 2024-05-08 09:41:48 发布

阅读量906

点赞数 1

文章标签：人工智能深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/weixin_40653850/article/details/126001572

版权

本文提出了一种名为结构化消融的新型防御方法，针对对抗性补丁攻击提供可认证的鲁棒性。与Chiang等人的工作相比，该方法在CIFAR-10上显著提高了认证准确率，并能扩展到ImageNet，同时减少了训练时间。通过利用补丁攻击的结构特性，如块平滑和带平滑，该方法能够提供确定性的证书，提高模型对抗补丁攻击的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【摘要】

在本文中，我们介绍了一种可认证的防御补丁攻击的方法，保证对于给定的图像和补丁攻击大小，不存在补丁对抗的例子。我们的方法与广泛的随机平滑鲁棒性方案有关，它提供了高置信度的概率鲁棒性证书。通过利用补丁攻击比一般稀疏攻击更受限制这一事实，我们得出了针对它们的有意义的大型鲁棒性证书。此外，与针对Lp和稀疏攻击的基于平滑的防御相比，我们针对补丁攻击的防御方法是去随机化的，产生了改进的、确定性的证书。与Chiang等人（2020年）提出的现有补丁认证方法相比，我们的方法可以大大加快训练速度，在CIFAR-10上实现了高清洁和认证的稳健准确性，并在ImageNet规模上提供证书。例如，对于CIFAR-10上的5×5补丁攻击，我们的方法实现了高达57.6%的认证精度（分类器的清洁精度约为83.8%），而现有方法的认证精度最多为30.3%（分类器的清洁精度约为47.8%）。我们的结果有效地建立了一个新的最先进的可认证的防御CIFAR-10和ImageNet的补丁攻击的方法。

【引言】

在此之前，Chiang et al.根据区间约束传播提出了第一个经过认证的防御对抗补丁攻击的算法，并且Chiang et al.在论文中证明了基于启发式的局部梯度平滑（LGS）算法可以被更强大的攻击攻破。然而，虽然这种认证防御在MNIST上表现良好，但它在CIFAR-10上的认证准确率很低，而且，引用该论文本身的话说，"不太可能扩展到ImageNet"。在这项工作中，我们提出了一种针对补丁攻击的认证防御，它克服了这些问题。特别是，我们的可认证防御方法导致了以下结果。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

此外，Chiang et al.提出的认证防御也有一个计算昂贵的训练算法：使用NVIDIA 2080 Ti GPU，报告的最佳模型对MNIST的训练时间为8.4个GPU小时数，对CIFAR-10的训练时间为15.4个GPU小时数。相比之下，我们的模型在同一型号的GPU上，对MNIST的训练大约需要1.0个GPU小时数，对CIFAR-10的训练需要2.5个GPU小时数。（在认证精度和时间成本上都高于Chiang et al.）

我们的可证明的稳健分类方案是基于随机平滑，这是一类可证明的稳健分类器，所有这些方法都依赖于一个类似的机制——如果有足够大的一部分来自x的噪声图像被归入某个类别c，那么在高置信度下，多个来自x0的噪声图像也将被分配到这个类别。

在本文中，我们提出了一个结构化消融方案，我们不是独立选择用于分类的像素，而是以一种相关的方式选择像素，以减少对抗性补丁被采样的概率。从经验上看，与天真的L0证书相比，结构化消融证书对补丁攻击的认证精度有很大提高。

【对抗补丁的认证防御】

Baseline：稀疏随机消融

编辑

添加图片注释，不超过 140 字（可选）

其中 Δ为攻击者改变 f(x) 输出的最大概率。令 c 为 x 处的多数分类（即 g(x) = c）。如果 f(x) = c 的概率大于 0.5 + Δ，那么对于任何失真图像 x0，可以得出结论 f(x0) = c 的概率大于 0.5，因此 g(x0) = c。但是，作者实验结果表明该算法在应用于补丁攻击时，它会产生相当差的认证准确性（难以产生确定性的证书），因为它没有利用攻击的结构。

方法提出：Structured Ablation（结构化消融）

为了利用补丁攻击的受限性质，我们提出了两种结构化消融方法，它们选择相关的像素组以降低对抗性补丁被采样的概率 Δ：

Block Smoothing: 作者使用了 s × s 的正方形像素块代替了原有的k个单个像素，然后消融图像的其余部分。

编辑

添加图片注释，不超过 140 字（可选）

这种方法的优势在于，利用块攻击的结构特征，使用块代替点，降低相交到对抗补丁的概率。

现定义f(X, s, x, y)是基础分类，对于每个类别c，fc(X, s, x, y)要么是0，要么是1；然而，请注意，我们并不要求fc(X, s, x, y)对任何类别c都=1（它可以弃权，对所有类别都返回0），而且我们也允许fc(X, s, x, y)对多个类别等于1。为了进行最终的分类并计算我们的稳健性证书，我们计算基础分类器返回每个类别的块数。

编辑

添加图片注释，不超过 140 字（可选）

得到基础分类器返回类别的次数最多的类后得到以下理论：

编辑切换为居中

添加图片注释，不超过 140 字（可选）

Band Smoothing: 作者选择宽度为 s 的单个像素带（一列或一行），并烧蚀图像的其余部分。

与块平滑相似，在本例中，基分类器是fc(x, s, x)，其中s现在是保留像素列的宽度，x是该列最左侧边缘的位置。我们只需要对一个维度求和:

编辑

添加图片注释，不超过 140 字（可选）

同理得到以下理论：

编辑切换为居中

添加图片注释，不超过 140 字（可选）

那么显而易见，针对补丁攻击利用上述两种方法一定会得到比随机消融更精确的认证准确度。根据实验，发现波段法（特别是列平滑法）产生了最可靠的分类器，如下图所示：

编辑切换为居中

添加图片注释，不超过 140 字（可选）

面对不同大小的补丁，算法的认证精度展示：

编辑切换为居中

添加图片注释，不超过 140 字（可选）

【总结】

在这项工作中，我们提出了结构化消减，这是一种可证明的针对补丁攻击的稳健防御。我们的方法是对随机平滑的改编，在CIFAR-10上明显优于最先进的认证防御补丁攻击的方法，而且，与以前的方法不同，可以扩展到ImageNet。

本文基于稀疏随机消融并结合对抗补丁的结构特点提出了结构化消融，将认证防御有效的扩展到ImageNet上（虽然认证精度只有不到14%），但时间成本仍然比一般的分类器高十几个数量级，目前已经有人通过引入Vit进一步提高了模型效率和认证精度 https://arxiv.org/abs/2110.07719