@article{pang2018max-mahalanobis,
title={Max-Mahalanobis Linear Discriminant Analysis Networks},
author={Pang, Tianyu and Du, Chao and Zhu, Jun},
pages={4013–4022},
year={2018}}
概
本文介绍了从最大化马氏距离的角度提出了一种defense.
主要内容
对于俩个分布来说, 区分样本属于哪一个分布, 最好的分类器就是贝叶斯分类, 特别的, 如果是高斯分布, 且协方差矩阵一致, 则其分类平面为
w
T
(
x
−
x
0
)
=
0
,
w^T(x-x_0)=0,
wT(x−x0)=0,
其中
w
=
Σ
−
1
(
μ
1
−
μ
2
)
,
w=\Sigma^{-1} (\mu_1 - \mu_2),
w=Σ−1(μ1−μ2),
x
0
=
1
μ
1
+
μ
2
−
ln
(
P
(
w
1
)
P
(
w
2
)
)
μ
1
−
μ
2
∥
μ
1
−
μ
2
∥
Σ
−
1
2
.
x_0=\frac{1}{\mu_1+\mu_2} - \ln (\frac{P(w_1)}{P(w_2)}) \frac{\mu_1-\mu_2}{\|\mu_1-\mu_2\|_{\Sigma^{-1}}^2}.
x0=μ1+μ21−ln(P(w2)P(w1))∥μ1−μ2∥Σ−12μ1−μ2.
特别的, 当
Σ
\Sigma
Σ为对角矩阵的时候, 其分类平面只与
μ
1
−
μ
2
\mu_1-\mu_2
μ1−μ2有关.
设一个混合高斯分布:
P
(
y
=
i
)
=
π
i
,
P
(
x
∣
y
=
i
)
=
N
(
μ
i
,
Σ
)
,
i
∈
[
L
]
:
=
1
,
…
,
L
,
P(y=i)=\pi_i, P(x|y=i)=\mathcal{N}(\mu_i, \Sigma), \quad i \in [L]:=1,\ldots,L,
P(y=i)=πi,P(x∣y=i)=N(μi,Σ),i∈[L]:=1,…,L,
并定义
Δ
i
,
j
:
=
[
(
μ
i
−
μ
j
)
T
Σ
−
1
(
μ
i
−
μ
j
)
]
1
/
2
.
\Delta_{i,j} := [(\mu_i-\mu_j)^T \Sigma^{-1} (\mu_i - \mu_j)]^{1/2}.
Δi,j:=[(μi−μj)TΣ−1(μi−μj)]1/2.
因为神经网络强大的拟合分布能力, 我们可以假设 Σ = I \Sigma=I Σ=I(文中将\Sigma$分解, 然后用变量替换可以得到, 马氏距离在此情况下具有不变性, 我觉得不如直接这么解释比较实在).
设想, 从第i个分布中采样 x ( i ) ∼ N ( μ i , I ) x_{(i)} \sim \mathcal{N}(\mu_i, I) x(i)∼N(μi,I), 将 x ( i ) x_{(i)} x(i)移动到与 j j j类的分类平面的距离设为 d ( i , j ) d_{(i,j)} d(i,j),
定理: 如果
π
i
=
π
j
\pi_i=\pi_j
πi=πj, 则
d
(
i
,
j
)
d_{(i,j)}
d(i,j)的期望为
E
[
d
(
i
,
j
)
]
=
2
π
exp
(
−
Δ
i
,
j
2
8
)
+
1
2
Δ
i
,
j
[
1
−
2
Φ
(
−
Δ
i
,
j
2
)
]
,
\mathbb{E}[d_{(i,j)}] = \sqrt{\frac{2}{\pi}} \exp(-\frac{\Delta_{i,j}^2}{8})+\frac{1}{2} \Delta_{i,j} [1-2\Phi(-\frac{\Delta_{i, j}}{2})],
E[d(i,j)]=π2exp(−8Δi,j2)+21Δi,j[1−2Φ(−2Δi,j)],
其中
Φ
\Phi
Φ表示正态分布函数.
注意, 这里的 d i , j d_{i,j} di,j是 x x x到分类平面的距离, 也就是说, 如果 x ( i ) x_{(i)} x(i)如果本身就位于别的类中, 同样也计算这个距离, 不公平, 当然如果这么考虑, 证明起来就相当麻烦了.
如果定义
R
B
=
min
i
,
j
∈
[
L
]
E
[
d
(
i
,
j
)
]
,
\mathrm{RB} = \min_{i,j\in [L]} \mathbb{E}[d_{(i,j)}],
RB=i,j∈[L]minE[d(i,j)],
则我们自然希望
R
B
\mathrm{RB}
RB越大越好(越鲁棒, 但是根据我们上面的分析, 这个定义是存在瑕疵的). 然后通过导数, 进一步发现
R
B
≈
R
B
ˉ
:
=
min
i
,
j
∈
[
L
]
Δ
i
,
j
/
2.
\mathrm{RB} \approx \bar{\mathrm{RB}} := \min_{i,j \in [L]} \Delta_{i,j} / 2.
RB≈RBˉ:=i,j∈[L]minΔi,j/2.
有定理:
所以, 作者的结论就是, 最后一层
z
i
=
μ
i
T
f
(
x
)
+
b
i
,
z_i =\mu_i^Tf(x)+b_i,
zi=μiTf(x)+bi,
满足
(
4
)
(4)
(4), 为此作者设计了一个算法
去构造. 所以, 这最后一层的参数是固定不训练的. 余下的与普通的网络没有区别.