深度神经网络的特征引导黑盒安全测试（Feature-Guided Black-Box Safety Testing of Deep Neural Networks）

最新推荐文章于 2023-01-12 21:07:39 发布

GGG_Yu

最新推荐文章于 2023-01-12 21:07:39 发布

阅读量775

点赞数

分类专栏：论文笔记文章标签：神经网络算法安全

本文链接：https://blog.csdn.net/GGG_Yu/article/details/118033173

版权

论文笔记专栏收录该内容

8 篇文章 4 订阅

订阅专栏

作者：Matthew Wicker, Xiaowei Huang, and Marta Kwiatkowska

单位：佐治亚大学，利物浦大学，牛津大学

摘要

大多数现有的生成对抗样本的方法都需要一些自己使用的神经网络知识（结构、参数等）。本文以图像分类器为研究对象，提出了一种特征引导的黑盒方法，可以在不需要这种知识的情况下来验证深度神经网络的安全性。我们将生成对抗样本的过程公式化为一个两人轮流随机游戏，其中第一个玩家的目标是通过操纵特征来最小化与对抗样本的距离，第二个玩家可以是合作的、对抗的或随机的。我们证明了，理论上，两人博弈可以收敛到最优策略，并且最优策略代表了一个全局最小的对抗图像。使用蒙特卡洛树搜索，我们穷尽搜索游戏状态空间来搜索对抗样本。最后，我们展示了我们的方法如何用于评估神经网络在安全关键应用中的鲁棒性，例如自动驾驶汽车中的交通标志识别。

预备知识

设 $N$ 是一个有 $C$ 个分类的神经网络，给定一个输入 $\alpha$ 和一个分类 $c\in C$ ，我们用 $N(\alpha,c)$ 来表示 $N$ 把 $\alpha$ 分类为 $c$ 的置信度。此外，我们用 $N(\alpha)=arg\ max_{c\in C}N(\alpha,c)$ 来表示 $N$ 对 $\alpha$ 的分类。对于我们讨论的图像分类网络，输入域 $D$ 是一个向量空间。

用于计算图像间距离的度量标准通常包括 $L_0,L_1,L_2,L_\infin$ 范数等。在之后的讨论中，我们定义 $||\alpha_1-\alpha_2||_k(k\ge0)$ 为在 $L_k$ 范数下 $\alpha_1$ 和 $\alpha_2$ 之间的距离。给定图像 $\alpha$ ，距离度量标准 $L_k$ ，以及距离 $d$ ，我们定义 $\eta(\alpha,k,d)=\{\alpha'|\ ||\alpha'-\alpha||_k\le d\}$ 为在 $L_k$ 范数下到 $\alpha$ 的距离不大于 $d$ 的点的集合。

定义1：给定一个输入 $x\in D$ ，一个 $k\ge0$ 的距离度量标准 $L_k$ 和一个距离 $d$ ，一个 $c\ne N(\alpha)$ 的对抗样本 $\alpha'$ 定义为 $\alpha'\in \eta(\alpha,k,d),N(\alpha')\ne N(\alpha),N(\alpha')=c$

$adv_{N,k,d}(\alpha,c)$ ： $c$ 类别的一系列对抗样本

$adv_{N,k,d}(\alpha)=\bigcup_{c\in C,c\ne N(\alpha)}adv_{N,k,d}(\alpha,c)$ ：所有类别的对抗样本

$adv_{N,k,d}(\alpha,c)=\empty$ ： $c$ 类的目标安全性

$adv_{N,k,d}(\alpha)=\empty$ ：非目标安全性

特征提取：尺度不变特征变换（SIFT，Scale Invariant Feature Transform）算法，这是一种无需使用神经网络就可以进行对象定位和跟踪的方法。通常分为以下几个步骤：尺度空间极值检测（检测图像中相对较暗或较亮的区域）、关键点定位（确定这些区域的确切位置）和关键点描述符分配（理解图像的上下文）。

人类对图像或物体的感知可以合理地表示为一组不同大小和不同响应强度的特征（在SIFT中称为关键点）。设 $\Lambda(\alpha)$ 是图像的一组特征，其中每个特征 $\lambda\in \Lambda(\alpha)$ 是一个元组 $(\lambda_x,\lambda_y,\lambda_s,\lambda_r)$ ， $(\lambda_x,\lambda_y)$ 是特征坐标， $\lambda_s$ 是特征大小， $\lambda_r$ 是特征的响应强度。

高斯混合模型：给定图像 $\alpha$ 及其关键点集合 $\Lambda(\alpha)$ ，我们为 $\lambda\in \Lambda(\alpha)$ 定义二维高斯分布 $G_i$ ，对于像素 $p_x,p_y)$ 有：
在这里插入图片描述
高斯混合模型就是加权计算（定义一组权重 $\Phi=\{\Phi_i\}_{i\in \{1,2,...,k\}}$ ）：

有模型之后就可以将一张图片变成高斯混合模型处理后的图片。

像素操作：定义用于操作图像的操作。

$\alpha(x,y,z)$ ：图像 $\alpha$ 上位于(x,y)的像素的z通道值（通常为RGB或灰度值,RGB3个,灰度1个）；

${ + , − } I=\{+,−\}$ 是一组操作指令, $\tau$ 是表示操作幅度的正实数；

对于所有的像素(x,y)和所有的通道z∈{1,2,3},在其输入子集X上的像素操作 $\delta_{X,i}:D\rightarrow D$ 定义为：
在这里插入图片描述

基于人类感知的操作安全性

提出了一种特征引导的方法，它不是使用梯度方向作为优化的指导，而是依赖于人类感知能力识别的目标和操作图像特征。

基于游戏的方法：

假定有两个玩家 $I$ 和 $I I$ 。玩家 $I$ 选择特征，而玩家 $I I$ 然后选择选定特征中的像素和操作指令。

尽管玩家 $I$ 的目标是最大程度地减少与对抗样本的距离，但玩家 $I I$ 可以根据高斯混合模型对像素进行采样，可以是合作者，对抗者或随机的。

我们根据 $L_k$ 范数定义目标函数，并将与一个对抗样本的距离视为衡量其严重性的指标。

定义2：在集合 $adv_{N,k,d}(\alpha,c)$ （或者 $adv_{N,k,d}(\alpha)$ ）中找到距原始图像 $\alpha$ 最小距离的 $\alpha'$ ，定义如下：
$\mathop{arg\ min}_{\alpha'}\{sev_\alpha(\alpha')\ |\ \alpha'\in adv_{N,k,d}(\alpha,c)(or\ adv_{N,k,d}(\alpha))\}$
其中的 $sev_\alpha(\alpha')=||\alpha-\alpha'||_k$ ，是对抗样例 $\alpha'$ 对原始图像 $\alpha$ 的严重程度。对于N张图片，直接求平均值就是该用例最终的严重程度，距离越小，代表该反例越好。

将对抗样本的生成过程转化为一个有两个玩家 $I$ 和 $I I$ 的双人回合制游戏：

设 $M(\alpha,p,d)=(S\cup(S\times\Lambda(\alpha)),s_0,\{T_a\}_{\alpha\in\{I,II\}},L)$ 为一个游戏模型

$S$ 是属于玩家 $I$ 的一组游戏状态，每个状态代表 $\eta(\alpha,k,d)$ 中的一个图像

$S\times\Lambda(\alpha)$ 是属于玩家 $I I$ 的一组游戏状态，其中 $\Lambda(\alpha)$ 是图像的一组特征

$\alpha(s)$ 表示与状态 $s\in S$ 相关的图像， $s_0\in S$ 是初始游戏状态， $\alpha(s_0)$ 是原始图像 $\alpha$

过度关系 $T_I:S\times\Lambda(\alpha)\to S\times\Lambda(\alpha)$ 被定义为 $T_I(s,\lambda)=(s,\lambda)$

过度关系 $T_{II}:(S\times\Lambda(\alpha))\times P(P_0)\times I\to S$ 被定义为 $T_{II}((s,\lambda),X,i)=\delta_{X,i}(\alpha(s))$ ，其中 $\delta_{X,i}$ 是像素操作

在每一个游戏状态 $s\in S$ 上，玩家 $I$ 都会选择一个关键点 $\lambda$ ，玩家 $I I$ 会选择一个对 $(X, i)$ ，其中 $X$ 是一组输入维度， $i$ 是一个操作指令

标记函数 $L:S\cup(S\times\Lambda(\alpha))\to C\times G$ 给每一个状态 $s$ 或 $(s,\lambda)$ 分配一个类别 $N(\alpha(s))$ 和一个二维高斯混合模型 $G(\Lambda(\alpha(s)))$

游戏模型路径：

游戏模型的路径是游戏状态的序列 $s_1u_1s_2u_2...$ ，使得对于所有 $k\ge1$ ，对于某些特征 $\lambda_k$ ，有 $u_k=T_I(s_k,\lambda_k)$ ；对于某些 $X_k,i_k)$ ，有 $s_{k+1}=T_{II}((s_k,\lambda_k),X_k,i_k)$

令 $l a s t (p)$ 为有限路径 $p$ 的最后状态， $Path_a^F$ 是有限路径的集合，以使 $l a s t (p)$ 属于玩家 $a\in \{I,II\}$

玩家 $I$ 的随机策略 $\sigma_I$ ： $Path_I^F\to D(\Lambda(\alpha))$

玩家 $I I$ 的随机策略 $\sigma_{II}$ ： $Path_{II}^F\to D(P(P_0)\times I)$

$\sigma=(\sigma_I,\sigma_{II})$ 为策略配置文件

奖励函数：

为 $\sigma=(\sigma_I,\sigma_{II})$ 和有限路径 $p\in\bigcup_{a\in \{I,II\}}Path_a^F$ 定义奖励 $R(\sigma,p)$ 。

$\alpha_p'=\alpha(last(p))$ 是与路径ρ的最后状态关联的图像。

$N(\alpha_p')=c\vee || \alpha_p' - \alpha||_k>d$ 表示路径已经达到一个状态，其关联图像或者在目标类c中，或者位于区域 $\eta(\alpha,k,d)$ 之外。只要满足 $t (p)$ ，路径 $p$ 就可以终止。

奖励函数 $R(\sigma,p)$ 定义如下：
在这里插入图片描述
其中 $\sigma_I(p)(\lambda)$ 是玩家 $I$ 在 $p$ 上选择 $\lambda$ 的概率， $\sigma_{II}(p)(X,i)$ 是玩家 $I I$ 在 $p$ 上选择 $(X, i)$ 的概率，路径仅终止于玩家 $I$ 的状态。

定义3：游戏的目的是让玩家 $I$ 根据玩家 $I I$ 的策略 $\sigma_{II}$ 选择一个策略 $\sigma_I$ ，以最大化初始状态 $s_0$ 的奖励 $R((\sigma_I,\sigma_{II}),s_0)$ ，即：
$\mathop{arg\ max}_{\sigma_I}opt_{\sigma_{II}}R((\sigma_I,\sigma_{II}),s_0)$
其中 $opt_{\sigma_{II}}$ 可以是 $max_{\sigma_{II}},min_{\sigma_{II}}$ 或 $nat_{\sigma_{II}}$ ，根据该选项，玩家 $I I$ 充当合作者，对抗者或随机（自然者），自然者对像素的高斯混合模型 $G(\Lambda(\alpha))$ 进行采样，并随机选择操作指令。

可以注意到，最大化奖励需要最小化严重程度 $sev_{\alpha}(\alpha'_p)$ ，这正是定义2中问题的目标。如果 $\sigma(p)$ 是狄拉克分布，策略 $\sigma$ 是确定性的，如果对于所有有限路径 $p$ ， $\sigma(p)=\sigma(last(p))$ ，策略σ是无记忆的。

定理1：当 $opt_{\sigma_{II}}\in\{max_{\sigma_{II}},min_{\sigma_{II}},nat_{\sigma_{II}}\}$ 时，确定性和无记忆策略足以满足玩家 $I$ 的需要。

蒙特卡罗树搜索渐近最优策略

本节中提出了一种基于蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS）的方法来渐近地寻找最优策略。

首先考虑 $opt_{\sigma_{II}}=max_{\sigma_{II}}$ 的情况，MCTS算法通过对模型 $M(\alpha,p,d)$ 的策略空间进行采样来逐步扩展部分博弈树。MCTS以置信区间上界算法（Upper Confidence Bound，UCB）作为探索方案，将其作为理论保证，当博弈树时被充分探索时，它会收敛至最优解。

使用两个终止条件 $tc_1$ 和 $tc_2$ 来控制算法的速度， $tc_1$ 控制整个过程是否应终止， $tc_2$ 控制何时进行移动，终止条件可以是例如迭代次数的界限等。

在部分树上，每个节点都维护有一对 $(r ， n)$ ，分别代表累积的奖励 $r$ 和访问次数 $n$ 。扩展叶节点以将其子级添加到部分树后，我们调用 $S i m u l a t i o n$ 在每个子节点上运行模拟。玩家在模拟过程中随机行动，每个模拟在到达终止节点 $\alpha_0$ 时终止，在该节点上可以计算奖励 $1/sev_{\alpha}(\alpha')$ 。

然后，该奖励将从新子节点通过其祖先反向传播，直到到达根节点为止。每次通过节点反向传播新的奖励 $v$ 时，我们都会将其关联对更新为 $(r + v ， n + 1)$ 。

$b e s t C h i l d (r o o t)$ 返回具有最高 $r / n$ 值的 $r o o t$ 的子代。

其他情况： $opt_{\sigma_{II}}=nat_{\sigma_{II}}$ 的情况，通过选择 $G(\Lambda(\alpha)$ 来选择一个孩子，而不是选择最好的孩子；对于 $opt_{\sigma_{II}}=min_{\sigma_{II}}$ 的情况，选择最差的孩子。
在这里插入图片描述
游戏中的严重度区间：根据上面的MCTS算法，设 $sev(M(\alpha,p,d),opt_{\sigma_{II}})$ 为 $sev_{\alpha}(\alpha')$ ， $\alpha'$ 即通过该算法得到的对抗样本，存在一个严重度区间 $SI(\alpha,p,d)$ ：
$[sev(M(\alpha,p,d),max_{\sigma_{II}}),sev(M(\alpha,p,d),min_{\sigma_{II}})]$
此外， $sev(M(\alpha,p,d),nat_{\sigma_{II}})\in SI(\alpha,p,d)$ 。

通过最佳策略保障安全： $\tau$ 是像素操作中使用的操作幅度，如果对于所有维度 $p\in P_0$ ，我们都有 $|\alpha'(p)-\alpha(p)|=n*\tau(n\ge0)$ ，则图像 $\alpha'\in \eta(\alpha,k,d)$ 是一个 $\tau$ -网格图像。令 $G(\alpha,k,d)$ 是 $\eta(\alpha,k,d)$ 中的 $\tau$ -网格图像的集合。对于玩家 $I I$ 是合作者的情况，我们有以下结论：

定理2：令 $\alpha'\in \eta(\alpha,k,d)$ 是任意一个 $\tau$ -网格图像，使得 $\alpha'\in adv_{N,k,d}(\alpha,c)$ ，那么我们有 $sev_{\alpha}(\alpha')\ge sev(M(\alpha,p,d),max_{\sigma_{II}})$ 。

直观地讲，定理2是说该算法可以从 $\tau$ -网格图像集中找到最佳对抗样本。

一个图像 $\alpha_1\in \eta(\alpha,k,d)$ 是一个关于 $\beta>0$ 的错误分类集合，如果对于任何 $\alpha_2\in \eta(\alpha_1,1,\beta)$ ，我们有 $N(\alpha_2)\ne N(\alpha)$ 意味着 $N(\alpha_1)\ne N(\alpha)$ 。我们有以下结论：

定理3：如果所有 $\tau$ -网格图像都是关于 $\tau/2$ 的错误分类聚合器，并且 $sev(M(\alpha,p,d),max_{\sigma_{II}})>d$ ，那么 $adv_{N,k,d}(\alpha,c)=\empty$ 。

该定理表明，要实现完整的安全性验证，可以逐渐减小 $\tau$ 直到 $sev(M(\alpha,p,d),max_{\sigma_{II}})\le d$ ，在这种情况下，网络是不安全的。

实验结果

对于本文的实验，我们让玩家 $I I$ 是合作者，它选择的对 $(X, i)$ 是这样的，对于所有的 $(x_1,y_1,z_1),(x_2,y_2,z_2)\in X$ ，我们有 $x_1=x_2,y_1=y_2$ ，即一个像素对于每个移动是变化的。当执行MCTS算法的 $S i m u l a t i o n$ 步骤时，对于所有关键点 $\lambda\in \Lambda(\alpha)$ ，我们让 $\sigma_I(\lambda)=\lambda_r/ \sum_{\lambda\in \Lambda(\alpha)}\lambda_r$ ，且 $opt_{\sigma_{II}}=nat_{\sigma_{II}}$ ，即玩家 $I$ 遵循随机策略，根据其响应强度选择一个关键点，玩家 $I I$ 是随机者。

我们将我们的方法与在两个图像分类网络上的两种最新方法进行比较，这两个网络是在基准数据集MNIST和CIFAR10上训练的。表1给出了与其他两种方法（ $C W$ 和 $J S M A$ ）的比较。表中的数字是平均距离，定义为 $\dfrac{1}{1000}·\sum^{1000}_{i=1}||\alpha_{i}-\alpha'_{i}||_0$ ， $\alpha'_i$ 是根据MCTS算法计算出的 $\alpha_i$ 的对抗样本。

在这里插入图片描述
$J S M A$ 处理一个图像需要几分钟， $C W$ 比 $J S M A$ 慢10倍。

我们把本文提出的基于游戏的方法来支持实时决策和测试的可能性，对于这种情况，算法需要非常高效，只需要几秒钟就可以执行一项任务。我们将我们的方法应用到一个用于对从摄像头收集的交通灯图像进行分类的网络中。Nexar交通灯挑战赛公开了超过一万八千个交通灯图像。如果图像中出现的交通灯是绿色的，则每个图像被标记为绿色；如果图像中出现的交通灯是红色的，则标记为红色；如果图像中没有出现交通灯，则标记为空。我们测试了挑战的获胜者，其准确率超过90%。

尽管每个输入有37632维（112 x 112 x 3），我们的算法显示平均4.85维的操作就会改变网络分类。算法在0.303秒内处理了每幅图像（包括读取和写入图像的时间），即测试所有1000幅图像需要304秒。
在这里插入图片描述

总结

在本文中，我们提出了一种新的特征引导的黑盒算法，用于评估深度神经网络对对抗样本的抵抗能力。我们的算法采用SIFT方法进行特征提取，非常高效，在实时决策支持中具有广泛的应用前景。我们开发了一个软件包，并展示了它在各种最先进的分类网络上的适用性。未来有许多可能的方向，比如与贝叶斯推理方法进行比较，以识别对抗样本的例子。

GGG_Yu

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度神经网络的特征引导黑盒安全测试（Feature-Guided Black-Box Safety Testing of Deep Neural Networks）

作者：Matthew Wicker, Xiaowei Huang, and Marta Kwiatkowska单位：佐治亚大学，利物浦大学，牛津大学目录摘要预备知识基于人类感知的操作安全性蒙特卡罗树搜索渐近最优策略实验结果总结摘要大多数现有的生成对抗样本的方法都需要一些自己使用的神经网络知识（结构、参数等）。本文以图像分类器为研究对象，提出了一种特征引导的黑盒方法，可以在不需要这种知识的情况下来验证深度神经网络的安全性。我们将生成对抗样本的过程公式化为一个两人轮流随机游戏，其中第一个玩家的目标是
复制链接

扫一扫