关键词:adversarially robust; Gaussian noise; L2-norm; randomization
目录
概括:利用高斯噪声设计一个能够抵御对抗样本的 smoothed classifier
1 概述
本文通过给分类器高斯噪声处理,使得新分类器对对抗攻击足够鲁棒。本文提出了“randomized smoothing” 技术并对其进行了严密的分析,进一步揭示了L2正则项和高斯噪声的联系:我们使用该技术来训练ImageNet分类器,例如,在l2范数小于0.5(=127/255)的对抗扰动下,认证的最高准确度为49%。其中的“smoothing” 技术也是唯一在全分辨率ImageNet上有效证明鲁棒性分类的方法。本文也证明了在小型数据集上,“smoothing” 技术相比其他L2鲁棒性技术,能够实现更高的准确率。
2 问题的引出
众所周知,机器学习模型容易遭到各类隐私攻击,本文着力于对抗攻击领域。对抗攻击是指给原始样本
x
x
x 添加微量扰动后生成的对抗样本
(
x
+
δ
)
(x+\delta)
(x+δ) 会被模型误判。现有的大量针对模型对对抗样本鲁棒性的研究,然而这些研究都无法适配于两种强大的对抗样本攻击 (Carlini & Wagner, 2017; Athalye et al.,
2018; Uesato et al., 2018)。因此,开展了一系列关于 certifiable robustness
的研究,探索 原始样本 x
的一系列邻域样本的稳定性(e.g. Wong & Kolter, 2018; Raghunathan et al., 2018a)。
在上述的工作中,所有验证神经网络鲁棒性的方法在扩大到对超级复杂图像分类任务(例如ImageNet)都存在问题。
2.1 randomized smoothing
因此,randomized smoothing
这项技术被提出,它的作用是将任意的分类器
f
f
f 转变成 smoothed classifier
g
g
g,
g
g
g 可被证实具有
l
2
l_2
l2 范数形式的鲁棒性。例如,定义
g
(
x
)
g(x)
g(x) 为
f
f
f 最可能把随机变量
N
(
x
,
σ
2
I
)
N(x,\sigma^2I)
N(x,σ2I) 最可能分类到的那一类。简而言之,就是给原始样本
x
x
x 添加噪声成为随机变量
N
(
x
,
σ
2
I
)
N(x,\sigma^2I)
N(x,σ2I),设计一个 smoothed classifier
g
g
g,
观察
g
g
g的输出(记为
g
(
z
)
g(z)
g(z))是否发生了变化,当噪声的
l
2
l_2
l2范数小于某些值时,
g
(
x
)
g(x)
g(x)判定的哪一类就是
f
(
x
)
f(x)
f(x)的那一类。
但是,randomized smoothing 存在一个问题,如果
f
f
f 是神经网络,我们就没法准确计算 分类器
f
f
f 把
N
(
x
,
σ
2
I
)
N(x,\sigma^2I)
N(x,σ2I) 分为每一类的概率(为什么不能准确计算我还是没想通??)。
优点:randomized smoothing适用于所有结构的模型,还适用于大型神经网络,这是其他方法所缺少的。
2.2 针对对抗样本的防御方法
2.2.1 Empirical defenses
做法:先利用某一种对抗样本算法生成大量对抗样本,然后在模型训练时加入这些对抗样本,生成的模型对对抗样本具有一定的抵抗能力。
特点:虽然容易操作,但是由于在训练集中添加的对样本生成方法的单一,一般只能抵御同种类型算法生成的对抗样本。
2.2.2 Certified defenses
如果2.1节提到的,Certified defense是指:训练一个对 输入样本
x
x
x 的
l
2
l_2
l2 或者
l
∞
l_\infty
l∞邻域内所有样本 都具有鲁棒性的分类器(需要经过certification)。
特点:对各类对抗样本都具有普适性。
其中,具体的实现方法分为 exact method 和 conservative method。
2.2.2.1 exact certification
假设存在一个 扰动
∥
δ
∥
⩽
r
\lVert \delta \rVert \leqslant r
∥δ∥⩽r ,分类器
g
g
g满足r半径内的鲁棒性。
exact methods 目的在于寻找一个扰动
δ
\delta
δ ,满足
g
(
x
)
≠
g
(
x
+
δ
)
g(x)\neq g(x+\delta)
g(x)=g(x+δ),如果存在这样的扰动,则 decline to make a certification(类似于假设不成立);如果找不到这样的扰动,则假设成立。然而,没有一种 exact method 适用于 中型复杂度的神经网络(含有100000激活单元以上,想要verify这样的网络必然会损害其表达性)。
2.2.2.2 Conservative certification
Conservative certification 可扩展到任意大小的神经网络,但是其得到的 鲁棒性 guarantee 比较 loose。其中,有一些 方法把 certification 当作一个优化问题,利用了一些优化方法(例如 relaxation 和 duality)。另一些方法从网络中的每一层出发,保持由扰动输入可达的激活单元集合的外部近似
然而,这种方法在大型网络中难以操作,需要定制网络结构。
本文的主要贡献:we prove a tight robustness guarantee in l 2 l_2 l2 norm for randomized smoothing with Gaussian noise.
3 Randomized smoothing
重新回顾一下 randomized smoothing 技术的内容:
When queried at x x x, the smoothed classifier g g g returns whichever class the base classifier f f f is most likely to return when x x x is perturbed by isotropic Gaussian noise:
即, g ( x ) g(x) g(x) 返回添加高斯噪声后输入对应最大概率的输出类别。
而公式中的 σ \sigma σ 是一个可以控制噪声级别的超参数,因此平滑后的分类器 g g g 可以通过调整 σ \sigma σ 来权衡 准确率和鲁棒性。
文章给出了几个定理,来说明 Robustness guarantee :
从这个假设的得到的定理1,我们可以得知:
定理2:
意思是如果噪声的l2范数超过了R,那么存在一个分类器
f
f
f, 这个分类器的输出的类别会发生变化。
那么,如何寻找满足 “添加最小扰动后最先改变预测” 的鲁棒性最差的分类器呢?下图给了解释:
上图很形象地解释了本文的idea,实线的同心圆表示
N
(
x
,
σ
2
I
)
N(x,\sigma^2I)
N(x,σ2I) ,虚线的同心圆表示
N
(
x
+
δ
,
σ
2
I
)
N(x+\delta,\sigma^2I)
N(x+δ,σ2I) 在所有分类器的决策边界中,右图的决策边界与
δ
\delta
δ 方向垂直的线性分类器是“最差的分类器”,最差的分类器指的是添加了 最小扰动
δ
\delta
δ 后最先出现判错地分类器。
因此,用原文的话来说:
Therefore, when f f f is linear, there always exists a perturbation δ δ δ just beyond the certified radius which changes g g g’s prediction.
算法: