Adversarially Robust Generalization Requires More Data

Schmidt L, Santurkar S, Tsipras D, et al. Adversarially Robust Generalization Requires More Data[C]. neural information processing systems, 2018: 5014-5026.

@article{schmidt2018adversarially,
title={Adversarially Robust Generalization Requires More Data},
author={Schmidt, Ludwig and Santurkar, Shibani and Tsipras, Dimitris and Talwar, Kunal and Madry, Aleksander},
pages={5014–5026},
year={2018}}

本文在二分类高斯模型和伯努利模型上分析adversarial, 指出对抗稳定的模型需要更多的数据支撑.

主要内容

高斯模型定义: θ ∗ ∈ R n \theta^* \in \mathbb{R}^n θRn为均值向量, σ > 0 \sigma >0 σ>0, 则 ( θ ∗ , σ ) (\theta^*, \sigma) (θ,σ)-高斯模型按照如下方式定义: 首先从等概率采样标签 y ∈ { ± 1 } y \in \{\pm 1\} y{±1}, 再从 N ( y ⋅ θ ∗ , σ 2 I ) \mathcal{N}(y \cdot \theta^*, \sigma^2I) N(yθ,σ2I)中采样 x ∈ R d x \in \mathbb{R}^d xRd.

伯努利模型定义: θ ∗ ∈ { ± 1 } d \theta^* \in \{\pm1\}^d θ{±1}d为均值向量, τ > 0 \tau >0 τ>0, 则 ( θ ∗ , τ ) (\theta^*, \tau) (θ,τ)-伯努利模型按照如下方式定义: 首先等概率采样标签 y ∈ { ± 1 } y \in \{\pm 1\} y{±1}, 在从如下分布中采样 x ∈ { ± 1 } d x \in \{\pm 1\}^d x{±1}d:
x i = { y ⋅ θ i ∗ w i t h   p r o b a b i l i t y   1 / 2 + τ − y ⋅ θ i ∗ w i t h   p r o b a b i l i t y   1 / 2 − τ x_i = \left \{ \begin{array}{rl} y \cdot \theta_i^* & \mathrm{with} \: \mathrm{probability} \: 1/2+\tau \\ -y \cdot \theta_i^* & \mathrm{with} \: \mathrm{probability} \: 1/2-\tau \end{array} \right. xi={yθiyθiwithprobability1/2+τwithprobability1/2τ

分类错误定义: P : R d × { ± 1 } → R \mathcal{P}: \mathbb{R}^d \times \{\pm 1\} \rightarrow \mathbb{R} P:Rd×{±1}R为一分布, 则分类器 f : R d → { ± 1 } f:\mathbb{R}^d \rightarrow \{\pm1\} f:Rd{±1}的分类错误 β \beta β定义为 β = P ( x , y ) ∼ P [ f ( x ) ≠ y ] \beta=\mathbb{P}_{(x, y) \sim \mathcal{P}} [f(x) \not =y] β=P(x,y)P[f(x)=y].

Robust分类错误定义: P : R d × { ± 1 } → R \mathcal{P}: \mathbb{R}^d \times \{\pm 1\} \rightarrow \mathbb{R} P:Rd×{±1}R为一分布, B : R d → P ( R d ) \mathcal{B}: \mathbb{R}^d \rightarrow \mathscr{P}(\mathbb{R}^d) B:RdP(Rd)为一摄动集合. 则分类器 f : R d → { ± 1 } f:\mathbb{R}^d \rightarrow \{\pm1\} f:Rd{±1} B \mathcal{B} B-robust 分类错误率 β \beta β定义为 β = P ( x , y ) ∼ P [ ∃ x ′ ∈ B ( x ) : f ( x ′ ) ≠ y ] \beta=\mathbb{P}_{(x, y) \sim \mathcal{P}} [\exist x' \in \mathcal{B}(x): f(x') \not = y] β=P(x,y)P[xB(x):f(x)=y].

注: 以 B p ϵ ( x ) \mathcal{B}_p^{\epsilon}(x) Bpϵ(x)表示 { x ′ ∈ R d ∣ ∥ x ′ − x ∥ p ≤ ϵ } \{x' \in \mathbb{R}^d|\|x'-x\|_p \le \epsilon\} {xRdxxpϵ}.

高斯模型

upper bound

定理18: ( x 1 , y 1 ) , … , ( x n , y n ) ∈ R d × { ± 1 } (x_1,y_1),\ldots, (x_n,y_n) \in \mathbb{R}^d \times \{\pm 1\} (x1,y1),,(xn,yn)Rd×{±1} 独立采样于同分布 ( θ ∗ , σ ) (\theta^*, \sigma) (θ,σ)-高斯模型, 且 ∥ θ ∗ ∥ 2 = d \|\theta^*\|_2=\sqrt{d} θ2=d . 令 w ^ : = z ˉ / ∥ z ˉ ∥ ∈ R d \hat{w}:=\bar{z}/\|\bar{z}\| \in \mathbb{R}^d w^:=zˉ/zˉRd, 其中 z ˉ = 1 n ∑ i = 1 n y i x i \bar{z}=\frac{1}{n} \sum_{i=1}^n y_ix_i zˉ=n1i=1nyixi. 则至少有 1 − 2 exp ⁡ ( − d 8 ( σ 2 + 1 ) ) 1-2\exp(-\frac{d}{8(\sigma^2+1)}) 12exp(8(σ2+1)d)的概率, 线性分类器 f w ^ f_{\hat{w}} fw^的分类错误率至多为:
exp ⁡ ( − ( 2 n − 1 ) 2 d 2 ( 2 n + 4 σ ) 2 σ 2 ) . \exp (-\frac{(2\sqrt{n}-1)^2d}{2(2\sqrt{n}+4\sigma)^2\sigma^2}). exp(2(2n +4σ)2σ2(2n 1)2d).

定理21: ( x 1 , y 1 ) , … , ( x n , y n ) ∈ R d × { ± 1 } (x_1,y_1),\ldots, (x_n,y_n) \in \mathbb{R}^d \times \{\pm 1\} (x1,y1),,(xn,yn)Rd×{±1} 独立采样于同分布 ( θ ∗ , σ ) (\theta^*, \sigma) (θ,σ)-高斯模型, 且 ∥ θ ∗ ∥ 2 = d \|\theta^*\|_2=\sqrt{d} θ2=d . 令 w ^ : = z ˉ / ∥ z ˉ ∥ ∈ R d \hat{w}:=\bar{z}/\|\bar{z}\| \in \mathbb{R}^d w^:=zˉ/zˉRd, 其中 z ˉ = 1 n ∑ i = 1 n y i x i \bar{z}=\frac{1}{n} \sum_{i=1}^n y_ix_i zˉ=n1i=1nyixi. 如果
ϵ ≤ 2 n − 1 2 n + 4 σ − σ 2 log ⁡ 1 / β d , \epsilon \le \frac{2\sqrt{n}-1}{2\sqrt{n}+4\sigma} - \frac{\sigma\sqrt{2\log 1/\beta}}{\sqrt{d}}, ϵ2n +4σ2n 1d σ2log1/β ,

则至少有 1 − 2 exp ⁡ ( − d 8 ( σ 2 + 1 ) ) 1-2\exp(-\frac{d}{8(\sigma^2+1)}) 12exp(8(σ2+1)d)的概率, 线性分类器 f w ^ f_{\hat{w}} fw^ ℓ ∞ ϵ \ell_{\infty}^{\epsilon} ϵ-robust 分类错误率至多 β \beta β.

lower bound

定理11: g n g_n gn任意的学习算法, 并且, σ > 0 , ϵ ≥ 0 \sigma > 0, \epsilon \ge 0 σ>0,ϵ0, 设 θ ∈ R d \theta \in \mathbb{R}^d θRd N ( 0 , I ) \mathcal{N}(0,I) N(0,I)中采样. 并从 ( θ , σ ) (\theta,\sigma) (θ,σ)-高斯模型中采样 n n n个样本, 由此可得到分类器 f n : R d → { ± 1 } f_n: \mathbb{R}^d \rightarrow \{\pm 1\} fn:Rd{±1}. 则分类器关于 θ , ( y 1 , … , y n ) , ( x 1 , … , x n ) \theta, (y_1,\ldots, y_n), (x_1,\ldots, x_n) θ,(y1,,yn),(x1,,xn) ℓ ∞ ϵ \ell_{\infty}^{\epsilon} ϵ-robust 分类错误率至少
1 2 P v ∼ N ( 0 , I ) [ n σ 2 + n ∥ v ∥ ∞ ≤ ϵ ] . \frac{1}{2} \mathbb{P}_{v\sim \mathcal{N}(0, I)} [\sqrt{\frac{n}{\sigma^2+n}} \|v\|_{\infty} \le \epsilon ]. 21PvN(0,I)[σ2+nn vϵ].

伯努利模型

upper bound

( x , y ) ∈ R d × { ± 1 } (x, y) \in \mathbb{R}^d \times \{\pm1\} (x,y)Rd×{±1}从一 ( θ ∗ , τ ) (\theta^*, \tau) (θ,τ)-伯努利模型中采样得到. 令 w ^ = z / ∥ z ∥ 2 \hat{w}=z / \|z\|_2 w^=z/z2, 其中 z = y x z=yx z=yx. 则至少有 1 − exp ⁡ ( − τ 2 d 2 ) 1- \exp (-\frac{\tau^2d}{2}) 1exp(2τ2d)的概率, 线性分类器 f w ^ f_{\hat{w}} fw^的分类错误率至多 exp ⁡ ( − 2 τ 4 d ) \exp (-2\tau^4d) exp(2τ4d).

lower bound

引理30: θ ∗ ∈ { ± 1 } d \theta^* \in \{\pm1\}^d θ{±1}d 并且关于 ( θ ∗ , τ ) − 伯 努 利 模 型 (\theta^*, \tau)-伯努利模型 (θ,τ)考虑线性分类器 f θ ∗ f_{\theta^*} fθ,
ℓ ∞ τ \ell_{\infty}^{\tau} τ-robustness: f θ ∗ f_{\theta^*} fθ ℓ ∞ τ \ell_{\infty}^{\tau} τ-robust分类误差率至多 2 exp ⁡ ( − τ 2 d / 2 ) 2\exp (-\tau^2d/2) 2exp(τ2d/2).
ℓ ∞ 3 τ \ell_{\infty}^{3\tau} 3τ-nonrobustness: f θ ∗ f_{\theta^*} fθ ℓ ∞ 3 τ \ell_{\infty}^{3\tau} 3τ-robust分类误差率至少 1 − 2 exp ⁡ ( − τ 2 d / 2 ) 1-2\exp (-\tau^2d/2) 12exp(τ2d/2).
Near-optimality of θ ∗ \theta^* θ: 对于任意线性分类器, ℓ ∞ 3 τ \ell_{\infty}^{3\tau} 3τ-robust 分类误差率至少 1 6 \frac{1}{6} 61.

定理31: g n g_n gn为任一线性分类器学习算法. 假设 θ ∗ \theta^* θ均匀采样自 { ± 1 } d \{\pm1\}^d {±1}d, 并从 ( θ ∗ , τ ) (\theta^*, \tau) (θ,τ)-伯努利分布( τ ≤ 1 / 4 \tau \le 1/4 τ1/4)中采样 n n n个样本, 并借由 g n g_n gn得到线性分类器 f w f_{w} fw.同时 ϵ < 3 τ \epsilon < 3\tau ϵ<3τ 0 < γ < 1 / 2 0 < \gamma < 1/2 0<γ<1/2, 则当
n ≤ ϵ 2 γ 2 5000 ⋅ τ 4 log ⁡ ( 4 d / γ ) , n \le \frac{\epsilon^2\gamma^2}{5000 \cdot \tau^4 \log (4d/\gamma)}, n5000τ4log(4d/γ)ϵ2γ2,
f w f_w fw关于 θ ∗ , ( y 1 , … , y n ) , ( x 1 , … , x n ) \theta^*, (y_1,\ldots, y_n), (x_1,\ldots, x_n) θ,(y1,,yn),(x1,,xn)的期望 ℓ ∞ ϵ \ell_{\infty}^{\epsilon} ϵ-robust 分类误差至少 1 2 − γ \frac{1}{2}-\gamma 21γ.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值