Fisher信息量在对抗样本中的应用_对抗样本的应用-CSDN博客

本文链接：https://blog.csdn.net/qq_38406029/article/details/124374801

本文总结了Fisher信息量在检测对抗攻击和防御中的关键作用，介绍了基于Fisher信息量的检测方法，如Fisher信息敏感度，以及防御策略，如通过抑制Fisher信息矩阵特征值来对抗OSSA攻击。研究还探讨了对抗行为与深度学习模型泛化性能的关系，并提出CCKL度量来理解对抗行为。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 引言

对抗样本对深度学习模型产生对抗行为的内部机理一直是一个研究热点，只有更好的理解其运作机理才能更好的对对抗攻击产生更有效的防御策略。最近几年有研究者通过利用数理统计中Fisher信息量的这一个数学工具去挖掘深度学习模型对抗行为的深层原因，并基于此提出了相应防御方法。本文主要是总结归纳最近几年Fisher信息量在对抗样本研究中的应用，并从中选出了三篇相关代表作进行解析。

2 基于Fisher信息量检测对抗攻击

在该论文中，作者从理论分析的角度研究了Fisher信息量在检测对抗攻击时的可用性，另外作者讨论了与网络大小成正比的变量有哪些，并研究了它们在对抗样本中的行为是怎样的，展示了它们如何突出单输入神经元的重要性，从而为进一步分析神经网络的不合理行为提供了可视化工具。

论文链接： https://www.sciencedirect.com/science/article/abs/pii/S0925231219316546

2.1 论文方法

数据集 $\mathcal{D}$ 是从 $p$ 维参数向量 $\theta$ 的分布 $p(\mathcal{D}|\theta)$ 采样而来的，则此时 $\theta$ 的Fisher信息量如下所示：
$\begin{aligned}\mathbb{F}_\theta&=\mathbb{E}_{\mathcal{D}\sim p(\mathcal{D}|\theta)}[\nabla_\theta \log p(\mathcal{D}|\theta)\nabla_\theta^\top \log p(\mathcal{D|\theta})]\\&=-\mathbb{E}_{\mathcal{D}\sim p(\mathcal{D}|\theta)}[\nabla_\theta \nabla_\theta^{\top}\log p(\mathcal{D|\theta})]\end{aligned}$ 在该论文中作者为了简化，论文中对数似然函数估计都是足够平滑的。Fisher信息矩阵主要测量的是对数似然估计 $\log p(\mathcal{D}|\theta)$ 的平均局部曲率。考虑一个小的 $\theta$ 在 $p$ 维向量 $v$ 方向上的扰动即 $\theta+\varepsilon \cdot v$ ，则在 $\mathrm{KL}$ 散度的泰勒展开式为
$\mathrm{KL}(p(\mathcal{D}|\theta)\|p(\mathcal{D}|\theta+\varepsilon \cdot v))=\frac{1}{2}\varepsilon^2 v^{\top}\mathbb{F}_\theta v+\mathcal{O}(\varepsilon^3)$ $\mathbb{F}_\theta$ 可以被看作在参数 $\theta$ 有多少信息量可以被获得，如果 $\mathbb{F}_\theta$ 数值高意味着参数并没有很好的拟合好数据样本，所以可以用 $\mathbb{F}_\theta$ 用于测量不正常的样本，比如对抗样本。矩阵 $\mathbb{F}_\theta$ 的维度是 $p\times p$ ，但是要计算这个矩阵 $\mathbb{F}_\theta$ 的计算量非常大。
在机器学习中，经常是需要从数据中学习一个输入到输出的参数化映射 $f_\theta$ ，其中 $\theta$ 包含所有的权重和偏置的参数。假定输入样本为 $X$ ，对应的输出为 $Y$ ，训练中一个批次的大小为 $N$ ，机器学习的目的是找到一个 $\theta$ ，使得 $f_\theta(x)\approx y$ ，其中 $f_\theta(x)$ 是一个 $C$ 维的向量，并且可以写成 $f_\theta(x)=(f^c_\theta(x))_{c=1,\cdots,C}$ ，此时关于 $\theta$ 的Fisher信息矩阵可以表示为 $\mathbb{F}_\theta=\sum\limits_{c=1}^Cf^c_{\theta}(x)\cdot\nabla_\theta \log f_\theta^c(x)\nabla_\theta^{\top}\log f^c_\theta(x)=\sum\limits_{c=1}^C\nabla_\theta f_\theta^c(x)\nabla_c^{\top}\log f_\theta(x)$ 但是需要清楚的是，即使是一个非常小的神经网络计算参数的Fisher信息矩阵 $\mathbb{F}_\theta$ 也是非常棘手的。因为该论文的关注点只是Fisher信息矩阵的最大特征值，所以可以利用矩阵的迹来进行代替，具体公式如下所示 $\mathrm{tr}\mathbb{F}_\theta=\sum\limits_{i=1}^p\sum\limits_{c=1}^C\partial_{\theta_i}f_\theta^c(x)\partial_{\theta_i}\log f_{\theta}^c(x)$ 由此可以发现使用反向传播算法的计算量为 $O(C\cdot p)$ ，所以计算量大大减小，随着神经网络规模的增加计算量呈线性增长。
该论文中，作者将矩阵 $\mathbb{F}_\theta$ 的迹表示为 $\sum\limits_{i=1}^pe^{\top}_i\mathbb{F}_\theta e_i$ ，进而则有 $v^{\top}\mathbb{F}_\theta v=\sum\limits_{c=1}^Cv^{\top}\nabla_\theta f^c_\theta(x)\cdot v^{\top}\nabla_\theta\log f^c_\theta(x)$ 其中 $v=\lambda \cdot \nabla_\theta \log p(y|x,\theta)$ 。假定预测类别 $\hat{y}=\arg\max\limits_{c=1,\cdots,C}f^c_{\theta}(x)$ ，则有以下公式 $(f^{\hat{y}}_\theta(x),\sum\limits_{c\ne \hat{y}}f^c_\theta(x))=(f^{\hat{y}}_\theta(x),1-f^{\hat{y}}_\theta(x))$ 以上公式可以看成一个二分类问题，即属于类别 $\hat{y}$ 或者不属于类别 $\hat{y}$ ，正则化之后可以得到 $\bar{v}^{\top}\mathbb{F}_\theta \bar{v}$ 其中 $\bar{v}=v/\|v\|$ ，以上目标函数是用于测量在点 $\theta$ 的统计流形曲率，现实中关于 $\theta$ 的梯度只出现在某个方向导数里，近似的计算公式为： $v^{\top}\nabla_\theta f^c_\theta (x)\approx (f_{\theta+\varepsilon^{\prime}\cdot v}-f_\theta)/\varepsilon^{\prime}$ 其中 $\varepsilon^{\prime}>0$ 是一个非常小的数值。为了能够获得更多定量信息，作者引入了一个单变量的随机变量 $\xi\sim \mathcal{N}(0,1)$ ，进而则有以下公式 $x^{\varepsilon,\eta}=x+\varepsilon \xi\cdot \eta$ 其中 $\varepsilon > 0$ ，向量 $\eta$ 跟 $x$ 有相同的维度，此时关于 $x$ 的Fisher信息量的计算公式可以表示为
$\begin{aligned}\mathbb{F}_\theta^{\varepsilon,\eta}&=\sum\limits_{c=1}^C\mathbb{E}_{x^{\varepsilon,\mu}}[\nabla_\theta f^c_\theta(x^{\varepsilon,\mu})\nabla_c^{\top}\log f_\theta(x^{\varepsilon,\mu})]\\&=\mathbb{F}_\theta+0+\frac{1}{2}\varepsilon^2 \sum\limits_{c=1}^C\sum\limits_{i,j=1}^N\eta_i \nabla_\theta \partial_{x_i}f_\theta^c(x)\nabla^{\top}_c\partial_{x_j}\log f_{\theta}(x)\eta_j+\mathcal{O}(\varepsilon^3)\end{aligned}$ 进一步正则化则有如下计算公式 $v^{\top}\mathbb{F}^{\varepsilon,\eta}v=v^{\top}\mathbb{F}_\theta v+\eta^{\top}\delta_v \mathbb{F}_\theta \eta$ 其中 $\delta_v\mathbb{F}_\theta=\sum\limits_{c=1}^C\nabla_x(v^{\top}\nabla_\theta f_\theta^c(x))\cdot \nabla^{\top}_x(v^{\top}\nabla_\theta \log f^c_\theta(x))$ 为了简化计算量，作者在这里采用了一个非常简单直观的方法，对于每一个 $i=1,\cdots,N$ ，取 $\eta=e_i$ ，进而则有如下计算公式 $e^{\top}_i\delta_v\mathbb{F}_\theta e_i=\sum\limits_{c=1}^C\partial_{x_i}(v^{\top}\nabla_\theta f_\theta^c(x))\cdot\partial_{x_i}(v^{\top}\nabla_\theta \log f^c_\theta(x))$ 对于每个 $i$ 都可以获得一个 $(e^{\top}_i\delta_v\mathbb{F}_\theta e_i)_{i=1,\cdots,N}$ ，作者称该向量为Fisher信息敏感度，它反映了输入中第 $i$ 个分量的重要程度，该方法通过一步后向传递就可以进行有效的计算。

3 基于Fisher信息量防御对抗攻击

在该论文中，作者提出了一种通过抑制Fisher信息矩阵的最大特征值来防御对抗性攻击的方案。通过理论分析可以发现Fisher信息矩阵的特征值较大，即使输入差异较小，输出差异也会变大，这就解释了对抗样本存在的原因。通过控制Fisher信息矩阵的特征值，这使得对抗防御成为可能，论文中作者由于求Fisher信息矩阵最大特征值的计算成本很高，其解决方案是在原始网络的损失函数中添加一个表示Fisher信息矩阵迹的项，因为最大特征值由矩阵的轨所限定。实验结果验证了本论文方法的有效性。
论文链接： https://arxiv.org/abs/1909.06137

3.1 论文方法

给定一张 $m\times n$ 的灰度图，分类器可以将其分为 $K$ 类中的某一类别。假定将图片从一个矩阵拉成一个长度为 $m\times n$ 的向量 $x$ ，则扰动图片 $x^{\prime}=x+\eta$ 。干净图片和扰动图片经过深度神经网络分类，最后一层的 $\mathrm{softmax}$ 层的输出分别为 $s(x)=[p_1(x),\cdots,p_K(x)]^{\top}$ 和 $s(x+\eta)=[p_1(x^{\prime}),\cdots,p_K(x^{\prime})]^{\top}$ ，其中对于 $i=1,\cdots,K$ ， $p_i\ge 0$ 且 $\sum\limits_{i=1}^Kp_i=1$ 。令样本 $x$ 属于第 $i$ 类的概率位 $p(y_i|x)$ ，其中 $y=[y_1,\cdots,y_K]^{\top}$ 是一个 $\mathrm{one\text{-}hot}$ 向量，则有 $p(y_i|x)=p_i(x)$ 且 $i=\arg\max\limits_{j}p_j(x)$ ，一般情况下， $x$ 和 $x+\eta$ 的距离通过利用 $\mathrm{KL}$ 散度去测量，具体公式如下所示：
$D_{KL}(s(x)\|s(x+\eta))=\mathbb{E}_y\left[\log \frac{p(y|x)}{p(y|x+\eta)}\right]\approx \frac{1}{2}\eta^{\top}G_x\eta$ 其中 $G_x=\mathbb{E}_y[\nabla_x \log p(y|x)\nabla_x^{\top}\log p(y|x)]$ 是 $x$ 的Fisher信息矩阵。 $\mathrm{KL}$ 散度的数值变大的时候，Fisher信息矩阵的最大特征值 $\lambda_{\max}(G_x)$ 也会随着变大。所以，对抗攻击的现象会出现在 $\lambda_{\max}{(G_x)}$ 数值较大的时候，对抗攻击方法OSSA就是利用Fisher信息矩阵最大特征值构造而来，具体的公式如下所示：
$\max\limits_{\eta}\eta^{\top}G_x \eta\quad \mathrm{s.t.} \text{ }\|\eta\|^2_2=\varepsilon,\text{ }J(y,x+\eta)>J(y,x)$ 其中 $\varepsilon$
表示的是平方范数的扰动上界， $J$ 是损失函数。构造对抗样本的问题可以转化为找到Fisher信息矩阵最大特征值 $\lambda_{\max}(G_x)$ 和对应的特征向量 $\eta$ 的问题，即 $G_x\eta = \lambda_{\max}\eta$ 。

该论文作者针对OSSA对抗攻击提出了相应的防御策略。因为特征值 $G_x$ 越大，则会使得 $\mathrm{KL}$ 散度越大，进而会导致对抗攻击的现象。防御此对抗攻击的方法就是去控制最大特征值 $\lambda_{\max}(G_x)$ 引入到输入样本中。一个很自然的方法就是增加一个正则化项到损失函数中，具体的公式如下所示：
$L(\Theta)+\mu \cdot \lambda_{\max}(G_x)$ 其中 $\mu$ 表示的是正则化参数， $L(\Theta)$ 是初始网络的损失函数， $\Theta$ 表示的是初始网络的参数空间。使用该损失函数的时候需要注意两个问题，第一个问题就是 $G_x$ 矩阵会很大，比如当给定一张 $1000\times 1000$ 的图片时，转换拉平之后向量的长度达到了 $10^6$ ，这就意味着 $G_x$ 的维度大小为 $10^6\times 10^6$ 。第二个问题是很难清晰的写出 $\lambda_{\max}(G_x)$ 的显示表达式。第一个问题可以通过以下策略被解决，将注意力从关注矩阵 $G_x$ 转移到 $G_s$ 中，其中 $s$ 表示的是 $\mathrm{softmax}$ 层的输出 $s=[p_1(x),\cdots,p_K(x)]$ 。与矩阵 $G_x$ 类似，则有 $G_s$ 如下公式
$G_s=\mathbb{E}_y[\nabla_s \log p(y|s) \cdot \nabla_s^{\top}\log p(y|s)]$ 需要注意的是 $G_s$ 是一个 $K\times K$ 的正定矩阵，则此时则有 $\begin{aligned}\eta^{\top}G_x\eta&=\eta^{\top}\mathbb{E}_y[\nabla_s\log p(y|s)\nabla^{\top}_s\log p(y|s)J^{\top}]\eta\\&=\eta^{\top}J^{\top}\mathbb{E}_y[\nabla_s\log p(y|s)\nabla^{\top}_s\log p(y|s)]J^{\top}\eta\end{aligned}$ 其中 $J=\left(\frac{\partial s^i}{\partial x^{\alpha}}\right)$ 是 $s = s (x)$ 的一个 $K\times mn$ 的雅可比矩阵，并且 $\nabla_x = J^{\top}\nabla_s$ 。
$\eta^{\top}G_x\eta=\eta^{\top}J^{\top}G_sJ\eta$ 因此第一个问题可以通过将计算 $mn\times mn$ 的矩阵的最大特征值和特征向量转化为计算 $K\times K$ 的最大特征值和特征向量。损失函数可以被写为 $L(\Theta)+\mu \cdot \lambda_{\max}(G_s)$ 但需要注意是特征值 $\lambda_{\max}(G_s)$ 没有显示表达式的问题依然存在。第二个问题可以通过计算矩阵 $G_s$ 的迹来代替计算 $\lambda(G_s)$ ，则此时的损失函数可以表示为
$L(\Theta)+\mu \cdot \mathrm{tr}(G_s)$ 其中 $G_s$ 可以被计算为如下所示
$\begin{aligned}\mathrm{tr}(G_s)&=\mathrm{tr}(\mathbb{E}_y[\nabla_s\log p(y|s)\nabla_s^{\top}\log p(y|s)])\\&=\int_y p(y|s)[\mathrm{tr}(\nabla_s^{\top}\log p(y|s)\nabla_s \log p(y|s))]dy\\&=\int_y p(y|s)\|\nabla_s \log p(y|s)\|_2^2dy\\&=\sum\limits_{i=1}^K p_i\sum\limits_{j=1}^K(\nabla_{p_j}\log p_i)^2\\&=\sum\limits_{i=1}^K \frac{1}{p_i}\end{aligned}$ 最终对于防御对抗攻击的损失函数可以表示为 $\tilde{L}(\Theta=L(\Theta)+\mu\cdot \sum\limits_{i=1}^K\frac{1}{p_i}\quad \mathrm{s.t.}\text{ }\sum\limits_{i=1}^Kp_i=1$ 作者通过修改初始神经网络的损失函数，以此来提高模型抵御对抗攻击的能力，最优参数可以通过以下方式获得 $\Theta^{*}=\arg\min\limits_{\Theta}\tilde{L}(\Theta)$

3.2 可行性分析

当 $\arg\min\limits_{p_1,\cdots,p_k}\sum\limits_{i=1}^K\frac{1}{p_i}$ 取到最小值时的解为 $p_1,\cdots,p_k=\frac{1}{K}$ ，这就意味着正则化项 $\sum\limits_{i=1}^K\frac{1}{p_i}$ 迫使 $[p_1,\cdots,p_K]$ 向中心点 $[1/K,\cdots,1/K]^{\top}$ ，不会向点 $[0,\cdots,1,\cdots,0]^{\top}$ 移动，所以一个很自然的担心是这样会导致深度神经网络的分类准确率下降，在该论文中，作者表明不会出现这种状况。最小化 $\sum\limits_{i=1}^{K}\frac{1}{p_i}$ 确实会使得 $[p_1,\cdots,p_K]$ 向点 $[1/K,\cdots,1/K]^{\top}$ 移动，但是损失函数的中的第一项会使得中心点不能被到达。移向中心点趋势并不是有害的，作者真正关心的是正确的类别 $i^{*}=\arg\max\limits_{i}p_i$ ，而不是 $p_{i^*}$ 的取值，所以，作者不会追求更大的 $p_{i^{*}}$ 值，而且使得 $p_{i^{*}}$ 在所有的类别 $i=1,\cdots,K$ 概率值 $p_i$ 中值最大。以上的情况说明了一个事实，一个样本分类的高置信度的结果有时候是不可靠的，原因在于类 $i$ 的高置信度意味着概率 $p_i$ 数值是大的，其它类别 $j\ne i$ 的概率值 $p_j$ 的数值是小的。一种极端的情况是当 $p_j=0$ 时，则有 $\sum\limits_{i=1}^K\frac{1}{p_i}\rightarrow \infty$ 。总之，高置信度样本对对抗扰动是非常敏感的，因此该样本面对对抗攻击也是非常脆弱的。

3.3 标签平滑正则化

论文中的方法和 $\mathrm{LSR}$ 都是会将份分类标签平滑化，并且正确标签依然是有最高的概率。标准的 $\mathrm{LSR}$ 一般分为两步，首先是对于给定的类别 $k\in\{1,\cdots,K\}$ ，将 $\mathrm{one\text{-}hot}$ 标签修改为：
$y_k^{LSR}=y_k (1-\alpha)+\alpha/K$ 其中 $\alpha\in(0,1)$ 是超参数， $y_k$ 是一个标签分量，其中正确的类别分量对应的数值是1，其它的分量对应的数值为0；然后用新的标签分量去训练这个网络。 $\mathrm{LSR}$ 方法可以使得一类的数据更加紧凑，这样可以更有效的抵御对抗攻击，但是该方法的问题在于需要格外有一个先验假设即标签是均匀分布的。本文论文的方法是基于严格的数学推导，不需要这样的假设条件，因此对比可知，该论文的方法有一个更好的解释性。

4 基于Fisher信息量理解对抗行为

在该论文中，作者主要对对抗扰动可以攻击深度学习模型的对抗行为进行研究，旨在揭示深度学习模型的泛化性能与对抗行为之间的关系。作者在论文中提出了一个基于Fisher信息量的度量方式，该指标在信息论上可以将深度学习的损失函数分为的非鲁棒性（负责对抗行为）和鲁棒性的两个成分。实验结果表明，当前的深度学习模型在很大程度上依赖于优化非鲁棒性成分来实现较好的分类性能。
论文链接： https://arxiv.org/abs/1906.02494v1

4.1 论文方法

在之前的研究中，在测试集上预测准确率往往用于去评估深度学习模型的性能。然而，这种评估方式会隐藏模型性能和对抗行为之间的关系。在该论文中，为了建立更透明的关系和更好理解模型的对抗行为，作者提出了采用任何不同类别的数据对的平均 $\mathrm{KL}$ 散度作为分类性能的度量。
令 $x$ 表示的是输入的图片， $y$ 是对应的 $\mathrm{one\text{-}hot}$ 标签分布， $f$ 是分类器模型， $\hat{y}=f(x)$ 是模型的输出分布。 $N_{\mathrm{pair}}$ 是不同类别的数据对的数目。 $\mathrm{JS}(f(x_i)\|f(x_j))$ 是 $f(x_i)$ 和 $f(x_j)$ 的 $\mathrm{JS}$ 散度，论文作者提出的交叉熵 $\mathrm{KL}$ 散度的公式如下所示： $\mathrm{CCKL}=\frac{1}{2N_{\mathrm{pair}}}\sum\limits_{\forall y_i \ne y_j}\mathrm{KL}(f(x_i)\|f(x_j))$ 由 $\mathrm{Lin}$ 不等式可知，从三角不等式中导出以下下界，可以用于描述交叉熵损失函数与论文中提出的目标之间的关系 $\mathrm{KL}(f(x_i)\|f(x_j))\ge 2 \mathrm{JS}(y_i\|y_j)-\mathrm{KL}(y_i\| f(x_i))-\mathrm{KL}(y_j\|f(x_j)),\quad \forall y_i\ne y_j$ 其中 $\mathrm{\mathrm{JS}}(y_i\|y_j)$ 表示的是 $y_i$ 和 $y_j$ 的 $\mathrm{JS}$ 散度。 $\mathrm{KL}(f(x_i)\|f(x_j))$ 能够更有效地表征模型训练过程中的行为，当训练损失 $\mathrm{KL}(y_i\|f(x_i))$ 下降的时候， $\mathrm{KL}(f(x_i)\|f(x_j))$ 的下界会增大。
从另一个视角可知，当给网络随机初始化的时候，深度神经网络 $f$ 没有任何正确分类样本的知识。因此，它不能够区分开输入样本 $x_i$ ， $x_j$ 以它们的输出概率。此时，在训练的早期阶段， $\mathrm{KL}(f(x_i)\|f(x_j))$ 是相对较小的；随着训练的进行，更多的标签依赖信息被整合到模型 $f_\theta$ 中，神经网络的泛化能力也随之加强，并且在测试集上的输出分布 $f_\theta(x)$ 会越来越接近真实的标签分布 $y$ ；在训练的末期阶段，模型损失 $\mathrm{KL}(y\|f(x))$ 将会下降到一个相对小的数值，此时 $\mathrm{KL}(f(x_i)\|f(x_j))$ 将会足够接近 $\mathrm{KL}({y_i\|y_j}$ )。

本文提出的度量方法可以更好的显示模型是如果能将不同类别的数据区分开来。如下公式所示为对抗训练的目标函 $\min\limits_{\theta}\max\limits_{\eta}\mathrm{KL}(y\|f_\theta(x+\eta))$ 随着训练的进行，参数 $\theta$ 会接近最优，输出分布 $f_\theta(x)$ 能够接近真实标签 $y$ 。在这种情况下 $\mathrm{KL}$ 散度是关于第一个变量连续的，所以则有如下公式 $\mathrm{KL}(y\|f_\theta(x+\eta))\approx \mathrm{KL}(f_\theta(x)\|f_\theta(x+\eta))$ 以上观察可以从分布的视角下去研究模型的对抗行为。为了更好的了解对抗行为和 $\mathrm{CCKL}$ 度量之间的联系，作者定义了以下对抗度量的公式 $L_\theta(x,\eta)=\mathrm{KL}(f_\theta(x)\|f_\theta(x+\eta))$ 相应对抗训练的目标函数如下所示 $\min\limits_{\theta}\max\limits_{\eta}L_\theta(x,\eta)\quad \mathrm{s.t.}\text{ }\|\eta\|\le \epsilon$ 给定 $L_\theta(x,\eta)$ ，其泰勒展开是可以表示 $\max\limits_\eta L_\theta(x,\eta)=\max\limits_{\eta}\eta^{\top}F_x \eta+\sum\limits_{k=3}^{\infty}T_x^{(k)}(\eta),\quad \mathrm{s.t.}\text{ }\|\eta\|\le \epsilon$ 其中 $F_x$ 是 $f (x)$ 关于 $x$ 的Fisher信息量， $f_j(x)$ 是 $f (x)$ 的第 $j$ 项， $n$ 是 $f (x)$ 的元素数，其中 $F_x$ 的具体计算公式如下所示：
$F_x = \sum\limits_{j=0}^n f_j(x)\nabla_x\log f_j(x)\nabla^{\top}_x\log f_j(x)$ 其中 $\epsilon$ 是足够的小，更高阶的项的是接近于 $0$ ，以上公式可以简化为
$\max\limits_{\eta}L(x,\eta)=\max\limits_{\eta}\eta^{\top}F_x\eta\quad\mathrm{s.t.}\text{ }\|\eta\|\le \epsilon$ 通过设定 $\nabla_\eta L=0$ ，可以得到 $F_x\eta =\lambda_{\max}\eta$ ，其中 $\lambda_{\max}$ 是矩阵 $F_x$ 的最大特征值。因此，则有 $L(x,\eta)\le \lambda_{\max} \epsilon^2,\quad \mathrm{s.t.}\text{ } \|\eta\|\le \epsilon$ 需要注意的是 $\lambda_{\max}$ 是Fisher信息矩阵 $F_x$ 的谱范数。以上的推导展示了模型在输入样本 $x$ 附近的对抗行为由Fisher信息矩阵所决定，如果 $F_x$ 的谱范数越大，则 $x$ 附近的对抗行为越严重。给定两个数据标签对 $x_i,y_i)$ 和 $x_j,y_j)$ ，并且 $y_i\ne y_j$ ，可以将 $\mathrm{KL}(f(x_i)\|f(x_j))$ 重新整理为 $\mathrm{KL}(f(x_i)\|f(x_j))=\mathrm{KL}(f(x_i)\|f(x_i+(x_i-x_j))=L(x_i,x_j-x_i)$ 因此，通过泰勒展开可以得到式可以得到 $\mathrm{KL}(f(x_i)\|f(x_j))=L(x_i,x_j-x_i)=(x_j-x_i)^{\top}F_{x_i}(x_j-x_i)+\sum\limits_{k=3}^{\infty}T^{(k)}_{x_i}(x_j-x_i)$ 由此可知在每一个数据点的对抗行为与目标损失函数 $\mathrm{CCKL}$ 的分数与在每个点的Fisher信息量有关。上文提出的对抗训练限制了一个深度神经网络模型的输入输出Fisher信息量，这种限制是一个好的深度模型的标准。由Cramer-Rao界可知 $\mathrm{var}(\hat{x})F_x \ge 1$ 如果尝试使用输出概率 $f (x)$ 到统计数据 $\hat{x}$ 来重建输入 $x$ ，则方差 $\mathrm{var}(\hat{x})$ 的不确定性由Fisher信息 $F_x$ 的倒数限定。对于深度神经网络，当它使用正确的标签对图像进行分类时，标签没有任何关于环境的信息（例如，狗是什么颜色、狗在哪里、对抗干扰等）。这意味着，对于一个好的深度神经网络模型，从输出分布 $f (x)$ 导出的任何统计量 $\hat{x}$ 的方差 $\mathrm{var}(\hat{x})$ 都相对较大。鉴于Cramer-Rao界，这意味着深度神经网络的Fisher信息量是一个相对较小的值。令 $(x_j-x_i)^{\top}F_x(x_j-x_i)$ 表示为 $G_1$ ， $\sum\limits_{k=3}^{\infty}T_{x_i}^{(k)}(x_j-x_i)$ 表示为 $G_2$ 。因此， $\mathrm{KL}(f(x_i)\|f(x_j))$ 可以公式化为 $\mathrm{KL}(f(x_i)\|f(x_2))=G_1+G_2$ 由上公式可以发现，当 $G_1$ 和 $G_2$ 增大时，都会使得 $\mathrm{KL}(f(x_i)\|f(x_j))$ 的值变大。 $G_1$ 是 $F_x$ 诱导的二阶多项式， $x_j-x_i)$ 是两个输入 $x_i$ 和 $x_j$ 之间固定的距离， $G_1$ 增大将会导致 $F_x$ 的范数增大。所以可知，如果一个模型严重依赖 $G_1$ 的变大来提升性能，则会 $F_x$ 的范数也会随之增大。又由以上的结论可知， $F_x$ 的范数越大，在 $x_i$ 点附近的对抗行为越严重，因为可知对抗行为和模型的分类性能是有一种内在冲突的。 $G_2$ 项可以提升分类性能但是却不会引起对抗行为。所以，以上目标函数成功地将非鲁棒元素和鲁棒元素分解开来。