各种距离算法汇总

最新推荐文章于 2025-03-01 15:00:00 发布

董十贝

最新推荐文章于 2025-03-01 15:00:00 发布

阅读量4.7k

点赞数 2

分类专栏：概率论与数理统计文章标签：协方差距离相关系数

原文链接：https://blog.csdn.net/mousever/article/details/45967643

版权

概率论与数理统计专栏收录该内容

3 篇文章

订阅专栏

本文全面解析了多种距离和相似度度量方法，包括欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、巴氏距离、汉明距离、夹角余弦、杰卡德相似系数、皮尔逊系数等，详细介绍了它们的定义、计算公式、优缺点及应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 欧氏距离

最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为：

二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：

两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：

两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：

2. 曼哈顿距离

图中红线代表曼哈顿距离，绿色代表欧氏距离，也就是直线距离，而蓝色和黄色代表等价的曼哈顿距离。

曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离，即d(i,j)=|xi-xj|+|yi-yj|。

对于一个具有正南正北、正东正西方向规则布局的城镇街道，从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离，因此，曼哈顿距离又称为出租车距离。曼哈顿距离不是距离不变量，当坐标轴变动时，点间的距离就会不同。曼哈顿距离示意图在早期的计算机图形学中，屏幕是由像素构成，是整数，点的坐标也一般是整数，原因是浮点运算很昂贵，很慢而且有误差，如果直接使用AB的欧氏距离(欧几里德距离：在二维和三维空间中的欧氏距离的就是两点之间的距离），则必须要进行浮点运算，如果使用AC和CB，则只要计算加减法即可，这就大大提高了运算速度，而且不管累计运算多少次，都不会有误差。

二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离：

两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离：

3.切比雪夫距离

若二个向量或二个点p 、and q，其座标分别为为及及，则两者之间的切比雪夫距离定义如下：

这也等于以下Lp度量的极值：

因此切比雪夫距离也称为L∞度量。

以数学的观点来看，切比雪夫距离是由一致范数（uniform norm）（或称为上确界范数）所衍生的度量，也是超凸度量（injective metric space）的一种。

在平面几何中，若二点p及q的直角坐标系坐标为为及，则切比雪夫距离为：。

二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离

两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距离

曼哈顿距离与切比雪夫距离的关系：

两者的定义看上去好像毛线关系都没有，但实际上，这两种距离可以相互转化！

我们考虑最简单的情况，在一个二维坐标系中，设原点为(0,0)(0,0)

如果用曼哈顿距离表示，则与原点距离为1的点会构成一个边长为11的正方形

如果用切比雪夫距离表示，则与原点距离为1的点会构成一个边长为2的正方形

仔细对比这两个图形，你会发现什么？没错！

第二个图像是由第一个图像放大两倍后旋转45°得到的

然后根据向量矩阵什么乱七八糟的可以得到

第一个图中的点(x,y)对应第二个图中的点( (x+y)/2,(x-y)/2)

这样我们就可以将其进行互相转换了。

4. 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义。

两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为：

其中p是一个变参数，根据变参数的不同，闵氏距离可以表示一类的距离。

当p=1时，就是曼哈顿距离
当p=2时，就是欧氏距离
当p→∞时，就是切比雪夫距离

5. 标准化欧氏距离 (Standardized Euclidean distance )

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。至于均值和方差标准化到多少，先复习点统计学知识。

假设样本集X的数学期望或均值(mean)为m，标准差(standard deviation，方差开根)为s，那么X的“标准化变量”X*表示为：(X-m）/s，而且标准化变量的数学期望为0，方差为1。即，样本集的标准化过程(standardization)用公式描述就是：

标准化后的值 = ( 标准化前的值－分量的均值 ) /分量的标准差

如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。

6. 马氏距离(Mahalanobis Distance)

(1)马氏距离定义

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是，它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的），并且是尺度无关的(scale-invariant)，即独立于测量尺度。

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。

如果协方差矩阵为单位矩阵，那么马氏距离就简化为欧氏距离，如果协方差矩阵为对角阵，则其也可称为正规化的欧氏距离。

有M个样本向量X1~Xm，协方差矩阵记为S，均值记为向量μ，则其中样本向量X到u的马氏距离表示为：

（协方差矩阵中每个元素是各个矢量元素之间的协方差Cov(X,Y)，Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}，其中E为数学期望）。而其中向量Xi与Xj之间的马氏距离定义为：

若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

，也就是欧氏距离。
(2)马氏距离的优缺点：

优点：

（1）它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。

（2）马氏距离还可以排除变量之间的相关性的干扰。

缺点：

（1）夸大了变化微小的变量的作用。
（2）受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。
（3）如果样本的维数非常大，那么计算它的协方差矩阵是十分耗时的！

7.巴氏距离（Bhattacharyya Distance）

在统计中，Bhattacharyya距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。Bhattacharyya距离和Bhattacharyya系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A. Bhattacharya命名。同时，Bhattacharyya系数可以被用来确定两个样本被认为相对接近的，它是用来测量中的类分类的可分离性。

（1）巴氏距离的定义

对于离散概率分布 p和q在同一域 X，它被定义为：

，其中