Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization

最新推荐文章于 2023-12-29 01:45:58 发布

一直奋斗的小文子

最新推荐文章于 2023-12-29 01:45:58 发布

阅读量321

点赞数

分类专栏：对抗防御文章标签：深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/A_struggling_wen/article/details/112134566

版权

对抗防御专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization

文章目录

- Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization
前言
一、主要思想
二、Jacobian正则化
三、理论验证
总结

前言

本周阅读了《Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization》这篇文章，现对它进行总结。这也是我博客之路的开始，希望可以坚持下去。

一、主要思想

本文提出了一种从理论上受到启发的新颖方法来提高网络的健壮性。该方法在常规训练完成后，使用网络雅可比行列式的Frobenius范数应用正则化用作后处理。凭经验证明，它可以以最小的原始网络精度变化带来增强的鲁棒性结果。

二、Jacobian正则化

假设训练数据集 $X$ 由N个训练示例组成，每个样本 $x_i$ 为D维向量，使用索引 $\cdots ,L.$ 来指定具有L层的网络中的特定层。 $z^{(l)}$ 是网络第 $l$ 层的输出， $z_k^{(l)}$ 是该层中第 $k$ 个神经元的输出。则网络的输入是
在这里插入图片描述
它的输出为 $f(x_i) \in R^K$ , $x_i$ 的预测类 $k_i^*=argmax_k f_k(x_i)$ , $\cdots ,K.$ 其中 $f(x_i)=softmax\{z^{(l)}(x_i)\}$ 是 $x_i$ 输入网络中的最后一个完全连接层的输出.
项 $\nabla _x z^{(l)} (x_i)$ 是在点 $x_i$ 评估 $L$ 层的雅可比矩阵，即 $J^{(L)}(x_i)=\nabla _x z^{(l)} (x_i)$ 。相应地， $J_k^{(L)}(x_i)=\nabla _x z_k^{(l)} (x_i)$ 是矩阵 $J^{(L)}(x_i)$ 中的第k行。网络的雅可比矩阵: 在这里插入图片描述
因此，输入样本 $x_i$ 的雅可比正则项为

将上述雅可比正则化项与训练数据上的标准交叉熵损失函数相结合，得到以下损失函数用于训练：

这便是本文提出的雅可比正则项的损失函数。请注意此雅可比正则化作为后处理，即在常规训练完成后将其应用于第二阶段的额外训练，增加了深度神经网络对对抗性的鲁棒性扰动。

代码如下（示例）：

################ Function for Jacobian calculation ################
def jacobian_matrix(y_flat, x, num_classes):
    for i in range(num_classes):
        if i==0:
            Jacobian = tf.gradients(y_flat[i],x)
        else:
            Jacobian = tf.concat([Jacobian, tf.gradients(y_flat[i],x)],axis=0)
    return Jacobian

三、理论验证

首先简单地对对抗性摄动与网络的雅可比矩阵之间的关系进行非正式解释。
令 $x$ 为给定的输入数据样本； $x_{some}$ 来自同一类别的接近 $x$ 且不受对抗攻击干扰的数据样本; $x_{pert}$ 是另一个数据样本，它是输入 $x$ 对抗性扰动的结果，它与x保持接近，但具有不同的预测标签。因此，对于网络的输入和输出中的 $l_2$ 距离度量，具有
在这里插入图片描述
令 $x，x_{pert}]$ 为输入空间中连接 $x$ 和 $x_{pert}$ 的D维线。根据平均值定理，存在一些 $\in [x，x_{pert}]$ 使得

这表明，当网络的雅可比矩阵的Frobenius范数较低时，它对输入空间的细微变化更加稳健。换句话说，鼓励网络为相似的输入产生相似的输出。
表1：原始数据和DeepFool扰动的数据的雅可比矩阵的平均Frobenius范数。
在这里插入图片描述
上述实验是对MNIST数据集使用各种防御方法进行训练。接受对于没有防御的“常规”训练，正如预期的那样，在受到干扰的输入上，上述平均准则明显更大。使用对抗训练，可以减少在扰动输入上评估的雅可比矩阵的平均Frobenius范数。但是，当添加雅可比正则化（λ= 0.1）时，该范数会大大减少。

总结

本文介绍了用于提高DNN对抗性示例鲁棒性的Jacobian正则化方法。我们为它的使用提供了理论基础，并证明了它在保持网络测试精度的同时，具有很高的鲁棒性。

一直奋斗的小文子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization

Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization文章目录Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization前言一、主要思想二、Jacobian正则化三、理论验证总结前言本周阅读了《Improving DNN Robustness to Adversarial Attacks using Ja
复制链接

扫一扫