数据科学中常见的距离度量方法

意念回复

已于 2022-04-05 13:45:07 修改

阅读量2.7k

点赞数 5

于 2021-02-23 13:47:37 首次发布

本文链接：https://blog.csdn.net/weixin_39910711/article/details/113939636

版权

机器学习专栏收录该内容

73 篇文章 285 订阅

订阅专栏

1 欧氏距离（Euclidean Distance）

2 余弦相似度（Cosine Similarity）

2.1 欧氏距离与余弦距离的关系

3 汉明距离（Hamming Distance）

4 曼哈顿距离（Manhattan Distance）

5 切比雪夫距离（Chebyshev Distance）

5.1 曼哈顿距离和切比雪夫距离之间的关系

6 闵氏距离（Minkowski）（闵可夫斯基距离）

7 雅卡尔指数（Jaccard Index）

在数据挖掘中，我们经常需要计算样本之间的相似度，通常的做法是计算样本之间的距离。在本文中，数据科学家 Maarten Grootendorst 向我们介绍了 9 种距离度量方法，其中包括欧氏距离、余弦相似度等。

许多算法，无论是监督学习还是无监督学习，都会使用距离度量。这些度量，如欧几里得距离或者余弦相似性，经常在 k-NN、 UMAP、HDBSCAN 等算法中使用。了解距离度量这个领域可能比你想的更重要，以 k-NN 为例，它常被用于监督学习中。

但是，如果你的数据是高维的，欧几里德距离还能用吗？又或者如果你的数据是由地理空间信息组成的，也许半正矢距离是很好的选择。

我们究竟如何选择最适合的距离度量？数据科学家 Maarten Grootendorst 向读者介绍了 9 种距离度量方法，并探讨如何以及何时以最佳的方式使用它们。此外 Maarten Grootendorst 还对它们的缺点进行了介绍，以及如何规避不足。

1 欧氏距离（Euclidean Distance）

我们从最常见的欧式距离开始，欧式距离可解释为连接两个点的线段的长度。欧式距离公式非常简单，使用勾股定理从这些点的笛卡尔坐标计算距离。

缺点：尽管这是一种常用的距离度量，但欧式距离并不是尺度不变的，这意味着所计算的距离可能会根据特征的单位发生倾斜。通常，在使用欧式距离度量之前，需要对数据进行归一化处理。

此外，随着数据维数的增加，欧氏距离的作用也就越小。这与维数灾难（curse of dimensionality）有关。

用例：当你拥有低维数据且向量的大小非常重要时，欧式距离的效果非常好。如果在低维数据上使用欧式距离，则如 k-NN 和 HDBSCAN 之类的方法可达到开箱即用的效果。

2 余弦相似度（Cosine Similarity）

余弦相似度经常被用作抵消高维欧式距离问题。余弦相似度是指两个向量夹角的余弦。如果将向量归一化为长度均为 1 的向量，则向量的点积也相同。

余弦相似度 (Cosine Similarity) 通过计算两个向量的夹角余弦值来评估他们的相似度。将向量根据坐标值，绘制到向量空间中，求得他们的夹角，并得出夹角对应的余弦值，此余弦值就可以用来表征这两个向量的相似性。夹角越小，余弦值越接近于1，它们的方向越吻合，则越相似。

两个方向完全相同的向量的余弦相似度为 1，而两个彼此相对的向量的余弦相似度为 - 1。注意，它们的大小并不重要，因为这是在方向上的度量。

余弦相似度的取值范围是[−1,1]，相同的两个向量之间的相似度为1。如果希望得到类似于距离的表示，将1减去余弦相似度即为余弦距离。因此，余弦距离的取值范围为[0,2]，相同的两个向量余弦距离为0。

缺点：余弦相似度的一个主要缺点是没有考虑向量的大小，而只考虑它们的方向。以推荐系统为例，余弦相似度就没有考虑到不同用户之间评分尺度的差异。

用例：当我们对高维数据向量的大小不关注时，可以使用余弦相似度。对于文本分析，当数据以单词计数表示时，经常使用此度量。例如，当一个单词在一个文档中比另一个单词更频繁出现时，这并不一定意味着文档与该单词更相关。可能是文件长度不均匀或者计数的重要性不太重要。我们最好使用忽略幅度的余弦相似度。

2.1 欧氏距离与余弦距离的关系

归一化后的向量的余弦距离和欧氏距离是等价的。

我们将cos(A,B)称为余弦相似度，1-cos(A,B)称为余弦距离，可以看到余弦距离和cos距离是等价的。推广到高纬空间可以得到一样的结论。如果选择距离最小（相似度最大）的近邻，那么使用余弦相似度和欧氏距离的结果是相同的。
现在的人脸识别方法中，会对特征做归一化，归一化后特征的余弦距离和cos距离是等价的，所以使用哪个距离都是OK的。

总体来说，欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。例如，统计两部剧的用户观看行为，用户A的观看向量为（0，1），用户B为（1，0）；此时二者的余弦距离很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。而当我们分析用户活跃度，以登陆次数（单位:次）和平均观看时长（单位:分钟）作为特征时，余弦距离会认为（1，10）、（10，100）两个用户距离很近；但显然这两个用户活跃度是有着极大差异的，此时我们更关注数值绝对差异，应当使用欧氏距离。

3 汉明距离（Hamming Distance）

汉明距离是两个向量之间不同值的个数。它通常用于比较两个相同长度的二进制字符串。它还可以用于字符串，通过计算不同字符的数量来比较它们之间的相似程度。

缺点：当两个向量长度不相等时，汉明距离使用起来很麻烦。当幅度是重要指标时，建议不要使用此距离指标。

用例：典型的用例包括数据通过计算机网络传输时的错误纠正 / 检测。它可以用来确定二进制字中失真的数目，作为估计误差的一种方法。此外，你还可以使用汉明距离来度量分类变量之间的距离。

4 曼哈顿距离（Manhattan Distance）

曼哈顿距离通常称为出租车距离或城市街区距离，用来计算实值向量之间的距离。想象一下均匀网格棋盘上的物体，如果它们只能移动直角，曼哈顿距离是指两个向量之间的距离，在计算距离时不涉及对角线移动。

从公式定义上看，曼哈顿距离一定是一个非负数，距离最小的情况就是两个点重合，距离为 0，这一点和欧氏距离一样。曼哈顿距离和欧氏距离的意义相近，也是为了描述两个点之间的距离，不同的是曼哈顿距离只需要做加减法，这使得计算机在大量的计算过程中代价更低，而且会消除在开平方过程中取近似值而带来的误差。不仅如此，曼哈顿距离在人脱离计算机做计算的时候也会很方便。

之所以曼哈顿距离又被称为出租车距离是因为在像纽约曼哈顿区这样的地区有很多由横平竖直的街道所切成的街区（Block），出租车司机计算从一个位置到另一个位置的距离，通常直接用街区的两个坐标分别相减，再相加，这个结果就是他即将开车通过的街区数量，而完全没有必要用欧氏距离来求解——算起来超级麻烦还没有意义，毕竟谁也没办法从欧氏距离的直线上飞过去。如图 3 所示，假设一辆出租车要从上面的圆圈位置走到下面的圆圈位置，无论是左边的线路，还是右边的线路，都要经过 11 个街区，而这个 11 就是曼哈顿距离。

缺点：尽管曼哈顿距离在高维数据中似乎可以工作，但它比欧式距离直观性差，尤其是在高维数据中使用时。此外，由于它可能不是最短路径，有可能比欧氏距离给出一个更高的距离值。

用例：当数据集具有离散或二进制属性时，曼哈顿距离似乎工作得很好，因为它考虑了在这些属性的值中实际可以采用的路径。以欧式距离为例，它会在两个向量之间形成一条直线，但实际上这是不可能的。

5 切比雪夫距离（Chebyshev Distance）

切比雪夫距离定义为两个向量在任意坐标维度上的最大差值。换句话说，它就是沿着一个轴的最大距离。切比雪夫距离通常被称为棋盘距离，因为国际象棋的国王从一个方格到另一个方格的最小步数等于切比雪夫距离。

缺点：切比雪夫距离通常用于特定的用例，这使得它很难像欧氏距离或余弦相似度那样作为通用的距离度量。因此，在确定适合用例时才使用它。

用例：切比雪夫距离用于提取从一个方块移动到另一个方块所需的最小移动次数。此外，在允许无限制八向移动的游戏中，这可能是有用的方法。在实践中，切比雪夫距离经常用于仓库物流，因为它非常类似于起重机移动一个物体的时间。

5.1 曼哈顿距离和切比雪夫距离之间的关系

这两种距离可以相互转化！我们考虑最简单的情况，在一个二维坐标系中，设原点为(0,0)。如果用曼哈顿距离表示，则与原点距离为11的点会构成一个边长为√2的正方形。

如果用切比雪夫距离表示，则与原点距离为1的点会构成一个边长为2的正方形。

仔细对比这两个图形，我们会发现这两个图形长得差不多，他们应该可以通过某种变换互相转化。事实上,

将一个点(x,y)的坐标变为(x+y,x−y)后，原坐标系中的曼哈顿距离 = 新坐标系中的切比雪夫距离
将一个点(x,y)的坐标变为(x+y2，x−y2)后，原坐标系中的切比雪夫距离 = 新坐标系中的曼哈顿距离

6 闵氏距离（Minkowski）（闵可夫斯基距离）

闵氏距离比大多数距离度量更复杂。它是在范数向量空间（n 维实数空间）中使用的度量，这意味着它可以在一个空间中使用，在这个空间中，距离可以用一个有长度的向量来表示。

闵氏距离公式如下：

最有趣的一点是，我们可以使用参数 p 来操纵距离度量，使其与其他度量非常相似。常见的 p 值有：

p=1：曼哈顿距离
p=2：欧氏距离
p=∞：切比雪夫距离

我们知道平面上到原点欧几里得距离（p = 2）为 1 的点所组成的形状是一个圆，当 p 取其他数值的时候呢？

注意，当 p < 1 时，闵可夫斯基距离不再符合三角形法则，举个例子：当 p < 1, (0,0) 到 (1,1) 的距离等于 (1+1)^{1/p} > 2, 而 (0,1) 到这两个点的距离都是 1。

缺点：闵氏距离与它们所代表的距离度量有相同的缺点，因此，对曼哈顿距离、欧几里得距离和切比雪夫距离等度量标准有个好的理解非常重要。此外，参数 p 的使用可能很麻烦，因为根据用例，查找正确的 p 值在计算上效率低。

：该维度上的均值
$\sigma$ : 该维度上的标准差

闵可夫斯基距离比较直观，但是它与数据的分布无关，具有一定的局限性，如果 x 方向的幅值远远大于 y 方向的值，这个距离公式就会过度放大 x 维度的作用。所以，在计算距离之前，我们可能还需要对数据进行 z-transform 处理，即减去均值，除以标准差：

用例：p 的积极一面是可迭代，并找到最适合用例的距离度量。它允许在距离度量上有很大的灵活性，如果你非常熟悉 p 和许多距离度量，将会获益多多。

可以看到，上述处理开始体现数据的统计特性了。这种方法在假设数据各个维度不相关的情况下利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关（例如：身高较高的信息很有可能会带来体重较重的信息，因为两者是有关联的），这时候就要用到马氏距离（Mahalanobis distance）了。