距离度量、相似度计算 (闵氏距离、马氏距离、皮尔逊相关系数、余弦相似度)

最新推荐文章于 2022-06-19 18:34:53 发布

连理o

最新推荐文章于 2022-06-19 18:34:53 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：概率论机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42437114/article/details/120772060

版权

机器学习专栏收录该内容

33 篇文章 15 订阅

订阅专栏

目录

$L_p$ 距离 ( $L_p$ distance) / Minkowski 距离 (Minkowski distance)
马氏距离 / 马哈拉诺比斯距离 (Mahalanobis Distance)
余弦相似度 (Cosine Similarity)
皮尔逊相关系数 (Pearson correlation coefficient)
参考文献

$L_p$ 距离 ( $L_p$ distance) / Minkowski 距离 (Minkowski distance)

在这里插入图片描述

当 $p = 2$ 时，称为欧氏距离 (Euclidean distance)
当 $p = 1$ 时，称为曼哈顿距离 (Manhattan distance)
当 $p = \infty$ 时，称为切比雪夫距离 (Chebyshev distance)，它是各个坐标距离的最大值，即

马氏距离 / 马哈拉诺比斯距离 (Mahalanobis Distance)

Ref: 马氏距离 (Mahalanobis Distance)、马氏距离与其推导

马氏距离是度量学习中一种常用的距离指标，同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题

马氏距离

单个数据点的马氏距离
$D_{M}(x)=\sqrt{(x-\mu)^{T} \Sigma^{-1}(x-\mu)}$
数据点 $x, y$ 之间的马氏距离
$D_{M}(x,y)=\sqrt{(x-y)^{T} \Sigma^{-1}(x-y)}$ 其中 $Σ$ 是多维随机变量的协方差矩阵， $μ$ 为样本均值，如果协方差矩阵是单位向量，也就是样本数据的各个分量不相关且各个分量的方差为 1，马氏距离就变成了欧氏距离，因此马氏距离是欧氏距离的推广

马氏距离到底有什么用？

如下图的过程，此例的数据中心为原点， $P_1$ , $P_2$ 到原点的欧氏距离相同，但点 $P_2$ 在 $y$ 轴上相对原点有较大的变异，而点 $P_1$ 在 $x$ 轴上相对原点有较小的变异。所以 $P_1$ 点距原点的直观距离是比 $P_2$ 点的小的
马氏距离就是解决这个问题，它将直观距离和欧式距离统一。为了做到这一点，它先将数据不同维度上的方差统一（即各维度上的方差相同），此时的欧式距离就是直观距离。如下图所示：统一方差后， $\hat P_1$ 到原点的距离小于 $\hat P_2$
但是，如果不同维度之间具有相关性，则压缩的效果就不好了。如下图只在横向和纵向上压缩，则达不到上图的压缩效果；只有在 $F_1$ 方向和 $F_2$ 方向上压缩数据才能达到较好的效果。所以需要将原始数据在 $X Y$ 坐标系中的坐标表示在 $F$ 坐标系中。然后再分别沿着坐标轴压缩数据
所以，计算样本数据的马氏距离分为两个步骤
- (1) 坐标旋转: 使旋转后的各个维度之间线性无关 (也就是使得各个维度数据之间的协方差均为 0)，所以该旋转过程就是主成分分析的过程
- (2) 数据压缩: 将不同的维度上的数据压缩成为方差都是 1 的的数据集

马氏距离的推导

定义一组 $R^n$ 上的正交基 $P$ 作为旋转后的新坐标系， $y$ 为样本 $x$ 旋转后的新坐标 (在新坐标系内，样本 $y$ 各个属性之间协方差为 0)，即 $x = P y$
设原协方差矩阵为 $\Sigma$ ，旋转后的协方差矩阵为 $D$ (由于旋转后各个属性之间协方差为 0，因此 $D$ 一定为对角矩阵)，有
$\begin{aligned}\Sigma&=\frac{1}{N-1}\sum_{n=1}^N(x_n-\mu)(x_n-\mu)^T\\ \therefore D&=\frac{1}{N-1}\sum_{n=1}^N(y_n-\mu')(y_n-\mu')^T \\&=\frac{1}{N-1}\sum_{n=1}^NP(x_n-\mu)(x_n-\mu)^TP^T \\&=P\Sigma P^T\end{aligned}$ 注意到这上面的推导和 PCA 是一样的， $P$ 由 $\Sigma$ 的特征向量基组成， $D$ 为对角矩阵，对角元素为 $\Sigma$ 对应的特征值
通过上面的推导，我们知道了如何旋转坐标系，之后我们要做的就是对旋转后的样本 $y$ 进行数据压缩，压缩后的样本 $\hat y=\sqrt{D^{-1}}y$
马氏距离是旋转变换缩放之后的欧式距离，因此马氏距离为:
$\begin{aligned}D_M&=(\hat y_1-\hat y_2)^T(\hat y_1-\hat y_2) \\&=(y_1-y_2)^T{D^{-1}}(y_1-y_2) \\&=(x_1-x_2)^TP{D^{-1}}P^T(x_1-x_2) \\&=(x_1-x_2)^T(P^T{D}P)^{-1}(x_1-x_2) \\&=(x_1-x_2)^T(P^TP\Sigma P^TP)^{-1}(x_1-x_2) \\&=(x_1-x_2)^T\Sigma^{-1}(x_1-x_2) \end{aligned}$

余弦相似度 (Cosine Similarity)

夹角余弦越接近于 1，表示样本越相似；越接近于 0，表示样本越不相似

在这里插入图片描述

皮尔逊相关系数 (Pearson correlation coefficient)

相关系数的绝对值越接近于 1，表示样本越相似；越接近于 0，表示样本越不相似
从形式上看，相比余弦相似度，皮尔逊相关系数通过使用样本平均值对各分量值进行修正，减小了不同样本偏置的影响

在这里插入图片描述

参考文献

《统计学习方法》
《深度学习推荐系统》

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
距离度量、相似度计算 (闵氏距离、马氏距离、皮尔逊相关系数、余弦相似度)

Ref: 《统计学习方法》目录LpL_pLp 距离 (LpL_pLp distance) / Minkowski 距离 (Minkowski distance)马氏距离 / 马哈拉诺比斯距离 (Mahalanobis Distance)LpL_pLp 距离 (LpL_pLp distance) / Minkowski 距离 (Minkowski distance)当 p=2p=2p=2 时，称为欧氏距离 (Euclidean distance)当 p=1p=1p=1 时，称为曼哈顿.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。