@article{schmidt2018adversarially,
title={Adversarially Robust Generalization Requires More Data},
author={Schmidt, Ludwig and Santurkar, Shibani and Tsipras, Dimitris and Talwar, Kunal and Madry, Aleksander},
pages={5014–5026},
year={2018}}
概
本文在二分类高斯模型和伯努利模型上分析adversarial, 指出对抗稳定的模型需要更多的数据支撑.
主要内容
高斯模型定义: 令 θ ∗ ∈ R n \theta^* \in \mathbb{R}^n θ∗∈Rn为均值向量, σ > 0 \sigma >0 σ>0, 则 ( θ ∗ , σ ) (\theta^*, \sigma) (θ∗,σ)-高斯模型按照如下方式定义: 首先从等概率采样标签 y ∈ { ± 1 } y \in \{\pm 1\} y∈{±1}, 再从 N ( y ⋅ θ ∗ , σ 2 I ) \mathcal{N}(y \cdot \theta^*, \sigma^2I) N(y⋅θ∗,σ2I)中采样 x ∈ R d x \in \mathbb{R}^d x∈Rd.
伯努利模型定义: 令
θ
∗
∈
{
±
1
}
d
\theta^* \in \{\pm1\}^d
θ∗∈{±1}d为均值向量,
τ
>
0
\tau >0
τ>0, 则
(
θ
∗
,
τ
)
(\theta^*, \tau)
(θ∗,τ)-伯努利模型按照如下方式定义: 首先等概率采样标签
y
∈
{
±
1
}
y \in \{\pm 1\}
y∈{±1}, 在从如下分布中采样
x
∈
{
±
1
}
d
x \in \{\pm 1\}^d
x∈{±1}d:
x
i
=
{
y
⋅
θ
i
∗
w
i
t
h
p
r
o
b
a
b
i
l
i
t
y
1
/
2
+
τ
−
y
⋅
θ
i
∗
w
i
t
h
p
r
o
b
a
b
i
l
i
t
y
1
/
2
−
τ
x_i = \left \{ \begin{array}{rl} y \cdot \theta_i^* & \mathrm{with} \: \mathrm{probability} \: 1/2+\tau \\ -y \cdot \theta_i^* & \mathrm{with} \: \mathrm{probability} \: 1/2-\tau \end{array} \right.
xi={y⋅θi∗−y⋅θi∗withprobability1/2+τwithprobability1/2−τ
分类错误定义: 令 P : R d × { ± 1 } → R \mathcal{P}: \mathbb{R}^d \times \{\pm 1\} \rightarrow \mathbb{R} P:Rd×{±1}→R为一分布, 则分类器 f : R d → { ± 1 } f:\mathbb{R}^d \rightarrow \{\pm1\} f:Rd→{±1}的分类错误 β \beta β定义为 β = P ( x , y ) ∼ P [ f ( x ) ≠ y ] \beta=\mathbb{P}_{(x, y) \sim \mathcal{P}} [f(x) \not =y] β=P(x,y)∼P[f(x)=y].
Robust分类错误定义: 令 P : R d × { ± 1 } → R \mathcal{P}: \mathbb{R}^d \times \{\pm 1\} \rightarrow \mathbb{R} P:Rd×{±1}→R为一分布, B : R d → P ( R d ) \mathcal{B}: \mathbb{R}^d \rightarrow \mathscr{P}(\mathbb{R}^d) B:Rd→P(Rd)为一摄动集合. 则分类器 f : R d → { ± 1 } f:\mathbb{R}^d \rightarrow \{\pm1\} f:Rd→{±1}的 B \mathcal{B} B-robust 分类错误率 β \beta β定义为 β = P ( x , y ) ∼ P [ ∃ x ′ ∈ B ( x ) : f ( x ′ ) ≠ y ] \beta=\mathbb{P}_{(x, y) \sim \mathcal{P}} [\exist x' \in \mathcal{B}(x): f(x') \not = y] β=P(x,y)∼P[∃x′∈B(x):f(x′)=y].
注: 以 B p ϵ ( x ) \mathcal{B}_p^{\epsilon}(x) Bpϵ(x)表示 { x ′ ∈ R d ∣ ∥ x ′ − x ∥ p ≤ ϵ } \{x' \in \mathbb{R}^d|\|x'-x\|_p \le \epsilon\} {x′∈Rd∣∥x′−x∥p≤ϵ}.
高斯模型
upper bound
定理18: 令
(
x
1
,
y
1
)
,
…
,
(
x
n
,
y
n
)
∈
R
d
×
{
±
1
}
(x_1,y_1),\ldots, (x_n,y_n) \in \mathbb{R}^d \times \{\pm 1\}
(x1,y1),…,(xn,yn)∈Rd×{±1} 独立采样于同分布
(
θ
∗
,
σ
)
(\theta^*, \sigma)
(θ∗,σ)-高斯模型, 且
∥
θ
∗
∥
2
=
d
\|\theta^*\|_2=\sqrt{d}
∥θ∗∥2=d. 令
w
^
:
=
z
ˉ
/
∥
z
ˉ
∥
∈
R
d
\hat{w}:=\bar{z}/\|\bar{z}\| \in \mathbb{R}^d
w^:=zˉ/∥zˉ∥∈Rd, 其中
z
ˉ
=
1
n
∑
i
=
1
n
y
i
x
i
\bar{z}=\frac{1}{n} \sum_{i=1}^n y_ix_i
zˉ=n1∑i=1nyixi. 则至少有
1
−
2
exp
(
−
d
8
(
σ
2
+
1
)
)
1-2\exp(-\frac{d}{8(\sigma^2+1)})
1−2exp(−8(σ2+1)d)的概率, 线性分类器
f
w
^
f_{\hat{w}}
fw^的分类错误率至多为:
exp
(
−
(
2
n
−
1
)
2
d
2
(
2
n
+
4
σ
)
2
σ
2
)
.
\exp (-\frac{(2\sqrt{n}-1)^2d}{2(2\sqrt{n}+4\sigma)^2\sigma^2}).
exp(−2(2n+4σ)2σ2(2n−1)2d).
定理21: 令
(
x
1
,
y
1
)
,
…
,
(
x
n
,
y
n
)
∈
R
d
×
{
±
1
}
(x_1,y_1),\ldots, (x_n,y_n) \in \mathbb{R}^d \times \{\pm 1\}
(x1,y1),…,(xn,yn)∈Rd×{±1} 独立采样于同分布
(
θ
∗
,
σ
)
(\theta^*, \sigma)
(θ∗,σ)-高斯模型, 且
∥
θ
∗
∥
2
=
d
\|\theta^*\|_2=\sqrt{d}
∥θ∗∥2=d. 令
w
^
:
=
z
ˉ
/
∥
z
ˉ
∥
∈
R
d
\hat{w}:=\bar{z}/\|\bar{z}\| \in \mathbb{R}^d
w^:=zˉ/∥zˉ∥∈Rd, 其中
z
ˉ
=
1
n
∑
i
=
1
n
y
i
x
i
\bar{z}=\frac{1}{n} \sum_{i=1}^n y_ix_i
zˉ=n1∑i=1nyixi. 如果
ϵ
≤
2
n
−
1
2
n
+
4
σ
−
σ
2
log
1
/
β
d
,
\epsilon \le \frac{2\sqrt{n}-1}{2\sqrt{n}+4\sigma} - \frac{\sigma\sqrt{2\log 1/\beta}}{\sqrt{d}},
ϵ≤2n+4σ2n−1−dσ2log1/β,
则至少有 1 − 2 exp ( − d 8 ( σ 2 + 1 ) ) 1-2\exp(-\frac{d}{8(\sigma^2+1)}) 1−2exp(−8(σ2+1)d)的概率, 线性分类器 f w ^ f_{\hat{w}} fw^的 ℓ ∞ ϵ \ell_{\infty}^{\epsilon} ℓ∞ϵ-robust 分类错误率至多为 β \beta β.
lower bound
定理11: 令
g
n
g_n
gn为任意的学习算法, 并且,
σ
>
0
,
ϵ
≥
0
\sigma > 0, \epsilon \ge 0
σ>0,ϵ≥0, 设
θ
∈
R
d
\theta \in \mathbb{R}^d
θ∈Rd从
N
(
0
,
I
)
\mathcal{N}(0,I)
N(0,I)中采样. 并从
(
θ
,
σ
)
(\theta,\sigma)
(θ,σ)-高斯模型中采样
n
n
n个样本, 由此可得到分类器
f
n
:
R
d
→
{
±
1
}
f_n: \mathbb{R}^d \rightarrow \{\pm 1\}
fn:Rd→{±1}. 则分类器关于
θ
,
(
y
1
,
…
,
y
n
)
,
(
x
1
,
…
,
x
n
)
\theta, (y_1,\ldots, y_n), (x_1,\ldots, x_n)
θ,(y1,…,yn),(x1,…,xn)的
ℓ
∞
ϵ
\ell_{\infty}^{\epsilon}
ℓ∞ϵ-robust 分类错误率至少为
1
2
P
v
∼
N
(
0
,
I
)
[
n
σ
2
+
n
∥
v
∥
∞
≤
ϵ
]
.
\frac{1}{2} \mathbb{P}_{v\sim \mathcal{N}(0, I)} [\sqrt{\frac{n}{\sigma^2+n}} \|v\|_{\infty} \le \epsilon ].
21Pv∼N(0,I)[σ2+nn∥v∥∞≤ϵ].
伯努利模型
upper bound
令 ( x , y ) ∈ R d × { ± 1 } (x, y) \in \mathbb{R}^d \times \{\pm1\} (x,y)∈Rd×{±1}从一 ( θ ∗ , τ ) (\theta^*, \tau) (θ∗,τ)-伯努利模型中采样得到. 令 w ^ = z / ∥ z ∥ 2 \hat{w}=z / \|z\|_2 w^=z/∥z∥2, 其中 z = y x z=yx z=yx. 则至少有 1 − exp ( − τ 2 d 2 ) 1- \exp (-\frac{\tau^2d}{2}) 1−exp(−2τ2d)的概率, 线性分类器 f w ^ f_{\hat{w}} fw^的分类错误率至多为 exp ( − 2 τ 4 d ) \exp (-2\tau^4d) exp(−2τ4d).
lower bound
引理30: 令
θ
∗
∈
{
±
1
}
d
\theta^* \in \{\pm1\}^d
θ∗∈{±1}d 并且关于
(
θ
∗
,
τ
)
−
伯
努
利
模
型
(\theta^*, \tau)-伯努利模型
(θ∗,τ)−伯努利模型考虑线性分类器
f
θ
∗
f_{\theta^*}
fθ∗,
ℓ
∞
τ
\ell_{\infty}^{\tau}
ℓ∞τ-robustness:
f
θ
∗
f_{\theta^*}
fθ∗的
ℓ
∞
τ
\ell_{\infty}^{\tau}
ℓ∞τ-robust分类误差率至多为
2
exp
(
−
τ
2
d
/
2
)
2\exp (-\tau^2d/2)
2exp(−τ2d/2).
ℓ
∞
3
τ
\ell_{\infty}^{3\tau}
ℓ∞3τ-nonrobustness:
f
θ
∗
f_{\theta^*}
fθ∗的
ℓ
∞
3
τ
\ell_{\infty}^{3\tau}
ℓ∞3τ-robust分类误差率至少为
1
−
2
exp
(
−
τ
2
d
/
2
)
1-2\exp (-\tau^2d/2)
1−2exp(−τ2d/2).
Near-optimality of
θ
∗
\theta^*
θ∗: 对于任意的线性分类器,
ℓ
∞
3
τ
\ell_{\infty}^{3\tau}
ℓ∞3τ-robust 分类误差率至少为
1
6
\frac{1}{6}
61.
定理31: 令
g
n
g_n
gn为任一线性分类器学习算法. 假设
θ
∗
\theta^*
θ∗均匀采样自
{
±
1
}
d
\{\pm1\}^d
{±1}d, 并从
(
θ
∗
,
τ
)
(\theta^*, \tau)
(θ∗,τ)-伯努利分布(
τ
≤
1
/
4
\tau \le 1/4
τ≤1/4)中采样
n
n
n个样本, 并借由
g
n
g_n
gn得到线性分类器
f
w
f_{w}
fw.同时
ϵ
<
3
τ
\epsilon < 3\tau
ϵ<3τ且
0
<
γ
<
1
/
2
0 < \gamma < 1/2
0<γ<1/2, 则当
n
≤
ϵ
2
γ
2
5000
⋅
τ
4
log
(
4
d
/
γ
)
,
n \le \frac{\epsilon^2\gamma^2}{5000 \cdot \tau^4 \log (4d/\gamma)},
n≤5000⋅τ4log(4d/γ)ϵ2γ2,
f
w
f_w
fw关于
θ
∗
,
(
y
1
,
…
,
y
n
)
,
(
x
1
,
…
,
x
n
)
\theta^*, (y_1,\ldots, y_n), (x_1,\ldots, x_n)
θ∗,(y1,…,yn),(x1,…,xn)的期望
ℓ
∞
ϵ
\ell_{\infty}^{\epsilon}
ℓ∞ϵ-robust 分类误差至少为
1
2
−
γ
\frac{1}{2}-\gamma
21−γ.