其他算法-马氏距离_马氏距离小于0降维-CSDN博客

本文链接：https://blog.csdn.net/qq_40943760/article/details/120310781

假设现在有数据集 $X\in R^{N\times F}$ ，而 $x_{1},x_{2}\in R^{F}$ 为数据集中的两个样本，则 $x_{1}$ 与 $x_{2}$ 的马氏距离为： $D_{M}(x_{1},x_{2})=\sqrt{(x_{1}-x_{2})\Sigma^{-1}(x_{1}-x_{2})^{T}}$ 其中， $\Sigma$ 是数据集 $X$ 的协方差矩阵（对于高维数据，协方差可以表示两个特征之间的相关性，协方差矩阵的计算回顾其他算法-PCA主成分分析），如果我们令协方差矩阵 $\Sigma$ 是一个单位阵，此时的马氏距离就等价于欧氏距离，马氏距离相比欧氏距离有两个好处：

排除变量之间相关性的干扰；
消除特征之间量纲的影响；

下面将对马氏距离的两个优点进行分析，首先引入问题，我们考虑以下数据，这是一个二维数据：
fig1
发现两个维度间存在很强的相关性，其中红点和绿点到中心点(黑点)的欧式距离是一样的，但是从图中可以发现，红点更像是异常点，因此这种情况下用欧氏距离来判断效果不好。而马氏距离通过将数据进行坐标旋转、缩放到另一个空间后可以直接使用欧氏距离区分开红点和绿点。

首先进行坐标旋转，目的是消除各个维度之间的相关性，PCA降维后得到的各个维度是独立的，因为PCA本质就是坐标旋转。PCA对数据 $X$ 的协方差矩阵 $\Sigma$ 分解： $\Sigma=U^{T}QU$ 其中， $U$ 是特征向量组成的矩阵，并且是一个正交矩阵（ $U^{T}U=I$ ），即 $U$ 是一组正交基构成的矩阵，然后我们把 $X$ 投影到这组正交基上便能够消除维度间的相关性，PCA取前 $k$ 个维度实现降维，此处我们不降维，我们保留所有维度得到消除相关性的数据： $Y = X U$ 数据可视化如下：
fig2
可以看到坐标旋转变换后两个维度之间相关性已经很小了，但是样本之间的相对位置不变，红点和绿点到黑点的欧氏距离还是一样，仍然无法区分开，此时还需要进行缩放处理；

下一步，对数据进行缩放，消除量纲影响；我们只需让 $Y$ 的每个维度除以 $Y$ 对应维度的标准差（ $\sigma_{i}$ 是第 $i$ 维的方差），得到缩放后的数据 $Z$ ：
$\begin{bmatrix} \frac{1}{\sqrt{\sigma_{1}}} & \cdots & 0 \\ & \ddots & \\ 0 & \cdots & \frac{1}{\sqrt{\sigma_{F}}} \end{bmatrix}=Y\Lambda$
下图是缩放后的数据：
fig3
假设 $z_{1},z_{2}\in R^{F}$ 是 $Z$ 中的两个样本，现在计算 $z_{1},z_{2}$ 的欧式距离即为 $x_{1},x_{2}$ 的马氏距离；

证明： $D(z_{1},z_{2})=\sqrt{(z_{1}-z_{2})(z_{1}-z_{2})^{T}}$ $=\sqrt{(y_{1}\Lambda-y_{2}\Lambda)(y_{1}\Lambda-y_{2}\Lambda)^{T}}=\sqrt{(x_{1}U\Lambda-x_{2}U\Lambda)(x_{1}U\Lambda-x_{2}U\Lambda)^{T}}$ $=\sqrt{(x_{1}-x_{2})U\Lambda \Lambda U^{T}(x_{1}-x_{2})^{T}}=\sqrt{(x_{1}-x_{2})\Sigma^{-1}(x_{1}-x_{2})^{T}}$
补充： $\Lambda \Lambda=\begin{bmatrix} \frac{1}{\sigma_{1}} & \cdots & 0 \\ & \ddots & \\ 0 & \cdots & \frac{1}{\sigma_{F}} \end{bmatrix}$ 这就是 $Y$ 的协方差矩阵的逆 $D(Y)^{-1}$ ，所以： $U\Lambda \Lambda U^{T}=UD(Y)^{-1} U^{T}=U(U\Sigma U^{T})^{-1}U^{T}=UU^{T}\Sigma^{-1}UU^{T}=\Sigma^{-1}$