Max-Mahalanobis Linear Discriminant Analysis Networks

文章目录

Pang T, Du C, Zhu J, et al. Max-Mahalanobis Linear Discriminant Analysis Networks[C]. international conference on machine learning, 2018: 4013-4022.

@article{pang2018max-mahalanobis,
title={Max-Mahalanobis Linear Discriminant Analysis Networks},
author={Pang, Tianyu and Du, Chao and Zhu, Jun},
pages={4013–4022},
year={2018}}

本文介绍了从最大化马氏距离的角度提出了一种defense.

主要内容

对于俩个分布来说, 区分样本属于哪一个分布, 最好的分类器就是贝叶斯分类, 特别的, 如果是高斯分布, 且协方差矩阵一致, 则其分类平面为
w T ( x − x 0 ) = 0 , w^T(x-x_0)=0, wT(xx0)=0,
其中
w = Σ − 1 ( μ 1 − μ 2 ) , w=\Sigma^{-1} (\mu_1 - \mu_2), w=Σ1(μ1μ2),
x 0 = 1 μ 1 + μ 2 − ln ⁡ ( P ( w 1 ) P ( w 2 ) ) μ 1 − μ 2 ∥ μ 1 − μ 2 ∥ Σ − 1 2 . x_0=\frac{1}{\mu_1+\mu_2} - \ln (\frac{P(w_1)}{P(w_2)}) \frac{\mu_1-\mu_2}{\|\mu_1-\mu_2\|_{\Sigma^{-1}}^2}. x0=μ1+μ21ln(P(w2)P(w1))μ1μ2Σ12μ1μ2.
特别的, 当 Σ \Sigma Σ为对角矩阵的时候, 其分类平面只与 μ 1 − μ 2 \mu_1-\mu_2 μ1μ2有关.

设一个混合高斯分布:
P ( y = i ) = π i , P ( x ∣ y = i ) = N ( μ i , Σ ) , i ∈ [ L ] : = 1 , … , L , P(y=i)=\pi_i, P(x|y=i)=\mathcal{N}(\mu_i, \Sigma), \quad i \in [L]:=1,\ldots,L, P(y=i)=πi,P(xy=i)=N(μi,Σ),i[L]:=1,,L,
并定义
Δ i , j : = [ ( μ i − μ j ) T Σ − 1 ( μ i − μ j ) ] 1 / 2 . \Delta_{i,j} := [(\mu_i-\mu_j)^T \Sigma^{-1} (\mu_i - \mu_j)]^{1/2}. Δi,j:=[(μiμj)TΣ1(μiμj)]1/2.

因为神经网络强大的拟合分布能力, 我们可以假设 Σ = I \Sigma=I Σ=I(文中将\Sigma$分解, 然后用变量替换可以得到, 马氏距离在此情况下具有不变性, 我觉得不如直接这么解释比较实在).

设想, 从第i个分布中采样 x ( i ) ∼ N ( μ i , I ) x_{(i)} \sim \mathcal{N}(\mu_i, I) x(i)N(μi,I), 将 x ( i ) x_{(i)} x(i)移动到与 j j j类的分类平面的距离设为 d ( i , j ) d_{(i,j)} d(i,j),

定理: 如果 π i = π j \pi_i=\pi_j πi=πj, 则 d ( i , j ) d_{(i,j)} d(i,j)的期望为
E [ d ( i , j ) ] = 2 π exp ⁡ ( − Δ i , j 2 8 ) + 1 2 Δ i , j [ 1 − 2 Φ ( − Δ i , j 2 ) ] , \mathbb{E}[d_{(i,j)}] = \sqrt{\frac{2}{\pi}} \exp(-\frac{\Delta_{i,j}^2}{8})+\frac{1}{2} \Delta_{i,j} [1-2\Phi(-\frac{\Delta_{i, j}}{2})], E[d(i,j)]=π2 exp(8Δi,j2)+21Δi,j[12Φ(2Δi,j)],
其中 Φ \Phi Φ表示正态分布函数.

注意, 这里的 d i , j d_{i,j} di,j x x x到分类平面的距离, 也就是说, 如果 x ( i ) x_{(i)} x(i)如果本身就位于别的类中, 同样也计算这个距离, 不公平, 当然如果这么考虑, 证明起来就相当麻烦了.

如果定义
R B = min ⁡ i , j ∈ [ L ] E [ d ( i , j ) ] , \mathrm{RB} = \min_{i,j\in [L]} \mathbb{E}[d_{(i,j)}], RB=i,j[L]minE[d(i,j)],
则我们自然希望 R B \mathrm{RB} RB越大越好(越鲁棒, 但是根据我们上面的分析, 这个定义是存在瑕疵的). 然后通过导数, 进一步发现
R B ≈ R B ˉ : = min ⁡ i , j ∈ [ L ] Δ i , j / 2. \mathrm{RB} \approx \bar{\mathrm{RB}} := \min_{i,j \in [L]} \Delta_{i,j} / 2. RBRBˉ:=i,j[L]minΔi,j/2.

有定理:
在这里插入图片描述

所以, 作者的结论就是, 最后一层
z i = μ i T f ( x ) + b i , z_i =\mu_i^Tf(x)+b_i, zi=μiTf(x)+bi,
满足 ( 4 ) (4) (4), 为此作者设计了一个算法
在这里插入图片描述
去构造. 所以, 这最后一层的参数是固定不训练的. 余下的与普通的网络没有区别.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值