深度神经网络的安全性验证（Safety Verification of Deep Neural Networks）

最新推荐文章于 2022-12-03 16:44:02 发布

GGG_Yu

最新推荐文章于 2022-12-03 16:44:02 发布

阅读量1.4k

点赞数 2

分类专栏：论文笔记文章标签：神经网络算法安全

本文链接：https://blog.csdn.net/GGG_Yu/article/details/118028383

版权

论文笔记专栏收录该内容

8 篇文章 4 订阅

订阅专栏

作者：Xiaowei Huang, Marta Kwiatkowska, Sen Wang and Min Wu

单位：牛津大学计算机科学系

摘要

深度神经网络在图像分类方面取得了令人印象深刻的实验结果，但它在对抗扰动方面是不稳定的，也就是说，对输入图像的极小改变也会导致网络对其进行错误分类。随着自动驾驶汽车的应用，包括感知模块和端到端控制器，这都引起了对其安全性的担忧。基于可满足性模块理论，本文提出了一种新的前馈多层神经网络自动验证框架。我们关注图像处理中图像分类决策的安全性，例如抓痕或相机角度或照明条件的变化，这些变化不会扰乱人类的判断，我们根据原始图像小邻域内分类的不变性来定义单个决策的安全性。我们通过离散化实现了区域的彻底搜索，并逐层传播分析。我们的方法直接与网络代码一起工作，并且与现有的方法相反，可以保证在给定的操作区域和系列中找到敌对的示例(如果存在)。如果找到了敌对示例，该例子可以显示给测试人员用来微调网络。我们使用Z3实现这些技术，并在最先进的网络上对它们进行评估，包括规范化和深度学习网络。我们还与现有的搜寻敌对例子的技术进行比较，并估计网络的鲁棒性。

主要贡献

在本文中，我们提出了一个通用框架，用于自动验证由前馈深度神经网络做出的分类决策的安全性。虽然我们使用图像分类器进行具体的工作，但是这些技术可以推广到其他环境。对于给定的图像 $x$ (向量空间中的一个点)，我们假设在该点周围有一个(可能是无限的)区域 $\eta$ ，这个区域中的所有点具有相同的分类。

我们定义了一个性质：一个网络决策是安全的，如果对于输入 $x$ 和区域 $\eta$ 来说，在 $x$ 上应用操作集 $\Delta$ 中的操作不会导致 $\eta$ 中类的改变。

本文的框架可以保证，如果存在错误分类，就会发现错误分类。由于我们将验证简化为对敌对示例的搜索，我们可以实现安全验证(如果所有层都没发现错误分类)或伪造(在这种情况下，敌对示例可以用于微调网络或显示给测试人员)。

我们使用Z3在一个名为DLV（深度学习验证）的工具中实现这些技术，并在最先进的网络上对它们进行评估，包括规范的和深度学习的网络。

预备知识

神经网络第 $k(k\in \{0,...,n\})$ 层中输入点 $x$ 的激活是对应激活函数的输出值，表示为 $\alpha_{x,k}$ ，其中 $\alpha_{x,0}=x$ ，而 $\alpha_{x,n}$ 表示对于输入x分配的类， $\alpha_{x,n}=\alpha_{y,n}$ 表示两个输入x和y具有相同的类。我们把 $L_k$ 层中的感知器集合写作 $P_k$ ，且 $n_k\equiv|P_k|$ 是 $L_k$ 层中感知器的数量。对于感知器 $p\in P_k$ ， $\alpha_{x,k}(p)$ 为其对于输入 $x$ 的激活值。

分类决策的安全性分析

安全性和鲁棒性

假设数据点 $x$ 周围存在一个区域 $\eta$ ，使得该区域中的所有点都不能被人类区分，那么这个区域中的点都具有相同的真实类别。通过使用用户指定范数的半径 $d$ 来识别这种区域，用于直观地测量与点 $x$ 的接近度。

神经网络 $\hat{f}$ 在点 $x$ 处是不鲁棒的，如果在区域 $\eta=\{z\in D_{L_0}\ |\ ||z-x||\le d\}$ 中存在点y，使得 $\hat{f}(x)\ne \hat{f}(y)$ 。

一般安全性：设 $\eta_k(\alpha_{x,k})$ 表示神经网络 $N$ 的 $L_k$ 层中的一个区域，该区域满足 $\alpha_{x,k}\in \eta_k(\alpha_{x,k})$ 。我们说 $N$ 对于输入 $x$ 和区域 $\eta_k(\alpha_{x,k})$ 是安全的，如果对于区域 $\eta_k(\alpha_{x,k})$ 中所有激活 $\alpha_{y,k}$ ，都有 $\alpha_{y,n}=\alpha_{x,n}$ 。

操作

本文设计的框架中一个关键概念就是操作，操作直观地模拟图像扰动，例如坏的角度、划痕或天气条件。这里把操作表示为超矩形，该矩形由 $L_k$ 层的两个激活 $\alpha_{x,k}$ 和 $\alpha_{y,k}$ 构成， $rec(\alpha_{x,k},\alpha_{y,k})=\times_{p\in P_k}[min(\alpha_{x,k}(p),\alpha_{y,k}(p)),\ max(\alpha_{x,k}(p),\alpha_{y,k}(p))]$ ，将其用 $\delta_k$ 指代。

图2展示了二维空间中有效操作的示例：每个箭头代表一个操作，每个虚线框代表相应操作的超矩形，激活 $\alpha_{x,k}$ 是来自虚线框的空间的内部点。
在这里插入图片描述
同时引入最小操作的概念，如果应用最小操作，只需在端点，即 $\alpha_{x,k}$ 和 $\delta_k(\alpha_{x,k})$ 处检查错误分类就足够了。

称一个在激活 $\alpha_{x,k}$ 上的操作 $\delta_k$ 是最小的，如果不存在操作 $\delta_k^1$ 和 $\delta_k^2$ 以及一个激活 $\alpha_{y,k}$ ，满足 $\delta^1_k(\alpha_{x,k})\le \delta_k(\alpha_{x,k})$ ， $\alpha_{y,k}=\delta^1_k(\alpha_{x,k})$ ， $\delta_k(\alpha_{x,k})=\delta^2_k(\alpha_{y,k})$ ，且 $\alpha_{y,n}\ne \alpha_{x,n}$ ， $\alpha_{y,n}\ne \delta_{k,n}(\alpha_{x,k})$ 。

有界变化

给定一个激活 $\alpha_{x,k}$ 及其相关区域 $\eta_k(\alpha_{x,k})$ ，定义一个"阶梯"为一组激活 $l d$ ，包括 $\alpha_{x,k}$ 和来自 $\eta_k(\alpha_{x,k})$ 的有限多个（也可能是0个）激活，阶梯中的激活可以被排成一个递增的顺序 $\alpha_{x,k}=\alpha_{x_0,k}<\alpha_{x_1,k}<...<\alpha_{x_j,k}$ ，每个 $\alpha_{x_t,k}\in ld$ 都出现一次并且有一个后继 $\alpha_{x_{t+1},k}$ ，使得对于某些操作 $\delta_k\in V(\alpha_{x_t,k})$ 而言，有 $\alpha_{x_{t+1},k}=\delta_k(\alpha_{x_t,k})$ 。对于最大的激活 $\alpha_{x_j,k}$ ，它的后继应该在区域 $\eta_k(\alpha_{x,k})$ 之外，即 $\alpha_{x_{j+1},k}\notin \eta_k(\alpha_{x,k})$ ，图3中给出了阶梯的图解说明。
在这里插入图片描述
设 $L(\eta_k(\alpha_{x,k}))$ 为区域 $\eta_k(\alpha_{x,k})$ 内的阶梯集合，那么该区域中对于 $L(\eta_k(\alpha_{x,k}))$ 的总变化为

其中， $diff_n(\alpha_{x,n},\alpha_{y,n})$ 在 $\alpha_{x,n}=\alpha_{y,n}$ 时值为0，其余情况值为1，我们称区域 $\eta_k(\alpha_{x,k})$ 是一个有界变化如果 $V(N;\eta_k(\alpha_{x,k}))<\infty$ ，其中有一种特殊情况， $V(N;\eta_k(\alpha_{x,k}))=0$ 时，称该区域为0-变化。

称一个 $L(\eta_k(\alpha_{x,k}))$ 是完备的，如果对于任意包含 $j + 1$ 个激活的阶梯 $ld\in L(\eta_k(\alpha_{x,k}))$ ，其中的元素 $l d (t)$ ， $0\le t\le j$ ,以及任意的操作 $\delta_k\in V(ld(t))$ ，都存在一个阶梯 $ld'\in L(\eta_k(\alpha_{x,k}))$ ，使得 $l d^{'} [0 . . t] = l d [0 . . t]$ 且 $ld'(t+1)=\delta_k(ld(t))$ 。直观地说，一个完备的阶梯是一个完备的树，在这个树上，每个节点代表一个激活，节点的每个分支对应一个有效的操作。

此外，如果集合 $L(\eta_k(\alpha_{x,k}))$ 中所有激活的多面体可以覆盖区域 $\eta_k(\alpha_{x,k})$ ，则集合 $L(\eta_k(\alpha_{x,k}))$ 是覆盖的，即
在这里插入图片描述
综上所述，我们对一组操作的安全性有如下定义。直观来说，我们迭代地和不确定地应用操作来探索区域 $\eta_k(\alpha_{x,k})$ ，安全性意味着通过连续应用这样的操作没有观察到分类的改变。

给定一个神经网络N，一个输入x，和一组操作集合 $\Delta_k$ ，我们称N对于输入x，区域 $\eta_k$ 以及操作集 $\Delta_k$ 是安全的，如果区域 $\eta_k(\alpha_{x,k})$ 对于集合 $L(\eta_k(\alpha_{x,k}))$ 中的阶梯是0-变化，其中该集合是完备的和覆盖的。该安全性可写作 $N,\eta_k,\Delta_k|=x$ 。

定理1：给定一个神经网络N，一个输入x，一个区域 $\eta_k$ ，对于任意的操作集合 $\Delta_k$ ，都有 $N,\eta_k|=x\ \rightarrow\ N,\eta_k,\Delta_k|=x$ 。

在相反的方向上，我们给出一个操作的极小性假设。

定理2：给定一个神经网络N，一个输入x，一个区域 $\eta_k$ ，一组操作集合 $\Delta_k$ ，如果 $\Delta_k$ 中的操作是极小的，则有 $N,\eta_k,\Delta_k|=x\ \rightarrow\ N,\eta_k|=x$ 。

验证框架

在这一节中，我们提出了一个新的框架，用于自动验证分类决策的安全性，该框架的基本思想是在给定区域内搜索对抗性错误分类。由于我们将验证简化为对敌对示例的搜索，我们可以实现安全验证(所有层都没有发现错误分类)或伪造(在这种情况下，敌对示例可以用于微调网络或显示给测试人员)。

逐层分析

为了便于考虑传播逐层分析，除了激活函数 $\phi_k:D_{L_{k-1}}\rightarrow D_{L_k}$ 之外，还需要一个相反方向的映射 $\psi_k:D_{L_k}\rightarrow D_{L_{k-1}}$ ，以表示 $L_k$ 层的操作激活如何影响 $L_{k-1}$ 层的激活，我们可以简单地将 $\psi_k$ 看作是 $\phi_k$ 的反函数。为了将点x处区域 $\eta_k(\alpha_{x,k})$ 的安全性传播到更深层，我们假设存在将激活映射到区域的函数 $\eta_k$ ，并对函数 $\phi_k$ 和 $\psi_k$ 作以下限制：

定义6：将激活映射到区域的函数 $\{\eta_0,\eta_1,...,\eta_n\}$ 和 $\{\psi_1,...\psi_n\}$ 是这样的：

1. $\eta_k(\alpha_{x,k})\subseteq D_{L_k}$ ，其中 $k = 0, . . ., n,$

2. $\alpha_{x,k}\in \eta_k(\alpha_{x,k})$ ，其中 $k = 0, . . ., n,$ 并且

3. $\eta_{k-1}(\alpha_{i,k-1})\subseteq \psi_k(\eta_k(\alpha_{x,k}))$ ，其中 $k = 1, . . ., n$

直观地说，前两个条件说明每个函数 $\eta_k$ 给出围绕激活 $\alpha_{x,k}$ 的一个区域，最后一个条件说明，用函数 $\psi_k$ 对于区域 $\eta_k$ 计算的从层 $L_k$ 到层 $L_{k-1}$ 的映射应该覆盖区域 $\eta_{k-1}$ 。目的是基于 $\eta_k$ 和神经网络计算函数 $\eta_{k+1},...,\eta_n$ 。
在这里插入图片描述
由于神经网络的大规模和复杂性，确定一组操作集合 $\Delta_k$ 是不是极小的是很困难的，因此定义一组操作间的细化关系。我们称 $N,\eta_k,\Delta_k|=x$ 是 $N,\eta_{k-1},\Delta_{k-1}|=x$ 的一个细化，如果集合 $\Delta_{k-1}$ 的所有操作 $\delta_{k-1}$ 都被集合 $\Delta_k$ 中一系列操作 $\delta_k$ 细化。这样即使我们不能从理论上确定 $\Delta_k$ 的极小性，但可以保证操作是逐层细化的，我们可以从一个特定的层向内逐渐分析，直到找到一个对抗样本。

细化的目的是找到一条可以证明 $N,\eta_0|=x$ 的链，我们现在定义了层与层之间操作的可细化性的概念。直观地说，如果 $L_k$ 层中存在实现 $L_{k-1}$ 层中的操作的操作序列，那么 $L_{k-1}$ 层中的操作在 $L_k$ 层中是可细化的。

定义7：一个操作 $\delta_{k-1}(\alpha_{y,k-1})$ 在层 $L_k$ 是可细化的，如果存在激活 $\alpha_{x_0,k},...,\alpha_{x_j,k}\in D_{L_k}$ ，有效操作 $\delta_k^1\in V(\alpha_{x_0,k}),...,\delta_k^j\in V(\alpha_{x_{j-1},k})$ ，使得 $\alpha_{y,k}=\alpha_{x_0,k},\delta_{k-1,k}(\alpha_{y,k-1})=\alpha_{x_j,k}$ ，且 $\alpha_{x_t,k}=\delta_k^t(\alpha_{x_{t-1},k})$ ，其中 $1\le t\le j$ 。给定一个神经网络N和一个输入x，如果对于所有的 $\alpha_{y,k-1}\in \eta_{k-1}(\alpha_{z,k-1})$ ，其所有有效操作 $\delta_{k-1}(\alpha_{y,k-1})$ 都可以在 $L_k$ 层进行细化，则称操作集 $\Delta_k$ 是对于 $\eta_{k-1},\Delta_{k-1}$ 和 $\eta_k$ 的细化。
在这里插入图片描述
定理3：给定一个神经网络N，一个输入x。对于所有 $k\ge1$ 的层，如果操作集 $\Delta_k$ 是 $\eta_{k-1},\Delta_{k-1}$ 以及 $\eta_k$ 的细化，那我们就有 $N,\eta_k,\Delta_k|=x\ \rightarrow\ N,\eta_{k-1},\Delta_{k-1}|=x$ 。

验证方法

验证方法可以总结为基于搜索的递归验证程序，如下算法1所示。该方法由给定点周围的区域 $\eta_k$ 和一系列操作集 $\Delta_k$ 参数化。操作由用户根据自己的分类问题指定，也可以自动选择。本文用SMT求解器实现算法1。
在这里插入图片描述

特征分解和发现

虽然定理1和定理2提供了一种有限的方法来验证神经网络分类决策的安全性，但是区域 $\eta_k(\alpha_{x,k})$ 的高维性使得任何计算方法都较难实践。因此，我们使用特征的概念将区域 $\eta_k(\alpha_{x,k})$ 划分为一组特征，并利用它们的独立性和低维性。

一个特征为高维空间 $D_{L_k}$ 中的每个点定义了它最明显的显著特征，例如下图街道标志的红色框架。形式上，对于每个层 $L_k$ ，特征函数 $f_k:D_{L_k}\rightarrow P(D_{L_k})$ 为空间 $D_{L_k}$ 中的每个激活 $\alpha_{x,k}$ 分配一个小区域，其中 $P(D_{L_k})$ 是 $D_{L_k}$ 的子空间集。
在这里插入图片描述
每个特征 $f_k(\alpha_{y,k})$ 由预先指定的数字 $dims_{k,f}$ 来标识，设 $dims_k(f_k(\alpha_{y,k}))$ 为根据某种启发式选择的维数集。那我们就有了

此外，我们需要一组特征来划分区域 $\eta_k(\alpha_{x,k})$ 。

定义8：如果 $dims_{k,f}(f_i)\cap dims_{k,f}(f_j)=\empty$ ，一组区域 ${f_1,...f_m}$ 是 $\eta_k(\alpha_{x,k})$ 的划分，写作 $\pi(\eta_k(\alpha_{x,k}))$ 。给定一个划分 $\pi(\eta_k(\alpha_{x,k}))$ ，定义一个函数 $acts(x,k)=\{\alpha_{y,k}\in x\ |\ x\in\pi(\eta_k(\alpha_{x,k}))\}$ ，每个特征包含一个点，然后我们把区域 $\eta_k(\alpha_{x,k})$ 的0-变化检查问题转换为：

（1）检查 $a c t s (x, k)$ 中的点是否与 $\alpha_{x,k}$ 具有相同的类别；

（2）检查 $\pi(\eta_k(\alpha_{x,k}))$ 中所有特征的0-变化。

区域和操作的选择

根据区域 $\eta_{k-1}$ 确定区域 $\eta_k$ ；

根据区域 $\eta_k(\alpha_{x,k}),\eta_{k-1}(\alpha_{x,k-1})$ 和操作集 $\Delta_{k-1}$ 确定操作集 $\Delta_k$ 。

映射回输入层

当操作隐藏层时，我们可能需要将层k中的激活映射回输入层，以获得导致错误分类的输入图像。为了检查区域 $\eta_k(\alpha_{x,k})$ 的0-变化，需要计算该区域中多个点 $\alpha_{y,k}$ 的 $diff_n(\alpha_{x,n},\alpha_{y,n})$ 。因为 $\alpha_{x,n}$ 已知，只需要计算 $\alpha_{y,n}$ 。我们可以通过找到一个点 $\alpha_{y,0}\in Pre_0(\alpha_{y,k})$ ，然后使用神经网络预测值 $\alpha_{y,n}$ 。虽然 $Pre_0(\alpha_{y,k})$ 可能包含多个点，但所有点都具有相同的类，因此 $Pre_0(\alpha_{y,k})$ 中的任何点都可以满足我们的目的。

为了从 $\alpha_{y,k}$ 计算出 $\alpha_{y,0}$ ，我们使用函数 $\psi_k,\psi_{k-1},...,\psi_1$ 并计算点 $\alpha_{y,k-1},\alpha_{y,k-2},...,\alpha_{y,0}$ 使得 $\alpha_{y,j-1}=\psi_j(\alpha_{y,j})\wedge\alpha_{y,j-1}\in\eta_{j-1}(\alpha_{x,j-1})$ ，整个计算过程也依赖于SMT求解器。

实验结果

所提出的框架已经实现为一个用Python编写的名为DLV（Deep Learning Verification）的软件工具，使用的SMT求解器是Z3，它有Python的API，神经网络是从一个广泛使用的神经网络库Keras构建的。在一些为了图像分类而训练的神经网络上验证了DLV。

二维点分类网络：该网络被训练用于对图6和图7中以红色显示的二维曲线上方和下方的点进行分类。对于给定的输入x = (3.59，1.11)，我们从输入层开始，通过在两个方向上采取单位步长来定义围绕该点的区域：
$\eta_0(\alpha_{x,0})=[3.59-1.0,3.59+1.0]\times[1.11-1.0,1.11+1.0]=[2.59,4.59]\times[0.11,2.11]$
操作集 $\Delta_0$ 如图6所示，除了中心点外的8个点，都是应用操作集中的一个操作产生的激活。考虑层k=1，工具从 $L_1$ 层中选择具有索引17和19的两个维度 $p_{1,17},p_{1,19}\in P_1$ ，并计算：
$\eta_1(\alpha_{x,1})=[\alpha_{x,1}(p_{1,17})-3.6,\alpha_{x,1}(p_{1,17})+3.6]\times[\alpha_{x,1}(p_{1,19})-3.52,\alpha_{x,1}(p_{1,19})+3.52]$
操作集 $\Delta_1$ ，通过函数 $\psi_1$ 映射回输入层之后，如图7所示。 $\Delta_1$ 是 $\eta_0,\Delta_0，\eta_1$ 的细化结果。
在这里插入图片描述

MNIST手写图像数据集的图像分类网络：L1层有21632个维度，操作集 $\Delta_1$ 可以通过将每个维度的值增加或减少1，来改变150个维度的子集的激活值的操作。实验结果表明，对于大多数例子，通过比较已经改变的像素数量，我们可以在层L1中发现100维变化内的类变化，并且其中一些可以具有小于30维的变化。
在这里插入图片描述

图像网数据集的图像分类网络：训练后的网络有138,357,544个实值参数，包括卷积层、ReLU层、零填充层、丢失层等等。实验参数和前面两个实验一样，只是我们用的是20000维。左边的图像被报告为第二层不安全，有6346个维度变化（L2层的3,211,264个维度的0.2%）。右边的这个图像对于L2层的20000维变化是安全的。
在这里插入图片描述

比较

我们将我们的方法与现有的两种寻找对抗样本的方法进行了比较，即快速梯度符号法（FGSM）和雅可比显著图（JSMA）算法。
在这里插入图片描述
表1给出了三种方法在MNIST数据集上的稳健性评价的比较，表中共有三个统计数据，即对抗样本的平均L1距离、平均L2距离和发现对抗样本的成功率。

总结

本文提出了一种用于检查深层神经网络安全性的自动验证框架，该框架基于对数据点周围区域的系统探索，以发现给定类型的潜在风险，并将分析推广到更深层。我们在几个最先进的神经网络分类器上对其进行了验证，在某些情况下，当使用较少的维度时，在几秒钟内发现了敌对的例子，但是验证过程本身在特征数量上是指数级的，并且对于较大的图像具有令人望而却步的复杂性。通过并行化，我们的方法的性能和可扩展性可以得到显著提高。

GGG_Yu

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度神经网络的安全性验证（Safety Verification of Deep Neural Networks）

作者：Xiaowei Huang, Marta Kwiatkowska, Sen Wang and Min Wu单位：牛津大学计算机科学系目录摘要主要贡献预备知识分类决策的安全性分析安全性和鲁棒性操作有界变化验证框架逐层分析验证方法特征分解和发现区域和操作的选择映射回输入层实验结果比较总结摘要深度神经网络在图像分类方面取得了令人印象深刻的实验结果，但它在对抗扰动方面是不稳定的，也就是说，对输入图像的极小改变也会导致网络对其进行错误分类。随着自动驾驶汽车的应用，包括感知模块和端到端控制器，这都引起
复制链接

扫一扫

专栏目录