Max-Mahalanobis Linear Discriminant Analysis Networks

最新推荐文章于 2020-07-10 14:57:59 发布

MTandHJ

最新推荐文章于 2020-07-10 14:57:59 发布

阅读量438

点赞数

分类专栏： neural networks

本文链接：https://blog.csdn.net/MTandHJ/article/details/107091453

版权

neural networks 专栏收录该内容

143 篇文章 6 订阅

订阅专栏

文章目录

- 概
- 主要内容

Pang T, Du C, Zhu J, et al. Max-Mahalanobis Linear Discriminant Analysis Networks[C]. international conference on machine learning, 2018: 4013-4022.

@article{pang2018max-mahalanobis,
title={Max-Mahalanobis Linear Discriminant Analysis Networks},
author={Pang, Tianyu and Du, Chao and Zhu, Jun},
pages={4013–4022},
year={2018}}

概

本文介绍了从最大化马氏距离的角度提出了一种defense.

主要内容

对于俩个分布来说, 区分样本属于哪一个分布, 最好的分类器就是贝叶斯分类, 特别的, 如果是高斯分布, 且协方差矩阵一致, 则其分类平面为
$w^T(x-x_0)=0,$
其中
$w=\Sigma^{-1} (\mu_1 - \mu_2),$
$x_0=\frac{1}{\mu_1+\mu_2} - \ln (\frac{P(w_1)}{P(w_2)}) \frac{\mu_1-\mu_2}{\|\mu_1-\mu_2\|_{\Sigma^{-1}}^2}.$
特别的, 当 $\Sigma$ 为对角矩阵的时候, 其分类平面只与 $\mu_1-\mu_2$ 有关.

设一个混合高斯分布:
$P(y=i)=\pi_i, P(x|y=i)=\mathcal{N}(\mu_i, \Sigma), \quad i \in [L]:=1,\ldots,L,$
并定义
$\Delta_{i,j} := [(\mu_i-\mu_j)^T \Sigma^{-1} (\mu_i - \mu_j)]^{1/2}.$

因为神经网络强大的拟合分布能力, 我们可以假设 $\Sigma=I$ (文中将\Sigma$分解, 然后用变量替换可以得到, 马氏距离在此情况下具有不变性, 我觉得不如直接这么解释比较实在).

设想, 从第i个分布中采样 $x_{(i)} \sim \mathcal{N}(\mu_i, I)$ , 将 $x_{(i)}$ 移动到与 $j$ 类的分类平面的距离设为 $d_{(i,j)}$ ,

定理: 如果 $\pi_i=\pi_j$ , 则 $d_{(i,j)}$ 的期望为
$\mathbb{E}[d_{(i,j)}] = \sqrt{\frac{2}{\pi}} \exp(-\frac{\Delta_{i,j}^2}{8})+\frac{1}{2} \Delta_{i,j} [1-2\Phi(-\frac{\Delta_{i, j}}{2})],$
其中 $\Phi$ 表示正态分布函数.

注意, 这里的 $d_{i,j}$ 是 $x$ 到分类平面的距离, 也就是说, 如果 $x_{(i)}$ 如果本身就位于别的类中, 同样也计算这个距离, 不公平, 当然如果这么考虑, 证明起来就相当麻烦了.

如果定义
$\mathrm{RB} = \min_{i,j\in [L]} \mathbb{E}[d_{(i,j)}],$
则我们自然希望 $\mathrm{RB}$ 越大越好(越鲁棒, 但是根据我们上面的分析, 这个定义是存在瑕疵的). 然后通过导数, 进一步发现
$\mathrm{RB} \approx \bar{\mathrm{RB}} := \min_{i,j \in [L]} \Delta_{i,j} / 2.$