【面试】列举常见的距离度量公式，并说明它们的优缺点

Lewiz_124

已于 2024-08-10 17:02:19 修改

阅读量753

点赞数 22

分类专栏： # AI面试文章标签：机器学习人工智能面试

于 2024-08-10 16:49:10 首次发布

本文链接：https://blog.csdn.net/Lewiz_124/article/details/141092957

版权

59 篇文章 0 订阅

订阅专栏

面试官: 你能列举一些常见的距离度量公式，并说明它们的优点和缺点吗？

候选人: 当然可以。距离度量在机器学习和数据分析中非常重要，特别是在聚类、分类和最近邻算法等应用中。不同的距离度量公式适用于不同类型的数据和任务。以下是几种常见的距离度量公式，以及它们的优点和缺点。

定义：

欧氏距离是最常用的距离度量方法之一，用于计算两个点在欧几里得空间中的直线距离。对于两个 $n$ 维向量 $(x_1, x_2, \dots, x_n)$ 和 $(y_1, y_2, \dots, y_n)$ ，欧氏距离定义为：
$d_{\text{Euclidean}}(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}$
优点：
直观易懂： 欧氏距离计算的是两点之间的最短直线距离，直观上与人们的日常理解一致。

缺点：

定义：

曼哈顿距离是两个点之间的绝对坐标差值之和。对于两个 $n$ 维向量 $(x_1, x_2, \dots, x_n)$ 和 $(y_1, y_2, \dots, y_n)$ ，曼哈顿距离定义为：
$d_{\text{Manhattan}}(x, y) = \sum_{i=1}^n |x_i - y_i|$
优点：
稳健性： 曼哈顿距离对异常值不如欧氏距离敏感，因为它没有平方运算。
适用于高维数据： 在某些高维数据集上，曼哈顿距离比欧氏距离更能反映数据的实际相似性。

缺点：

定义：

闵可夫斯基距离是欧氏距离和曼哈顿距离的广义形式。对于两个 $n$ 维向量 $(x_1, x_2, \dots, x_n)$ 和 $(y_1, y_2, \dots, y_n)$ ，以及一个参数 $p$ （ $\geq 1$ ），闵可夫斯基距离定义为：
$d_{\text{Minkowski}}(x, y) = \left( \sum_{i=1}^n |x_i - y_i|^p \right)^{1/p}$
当 $p = 2$ 时，它等同于欧氏距离；当 $p = 1$ 时，它等同于曼哈顿距离。

优点：

缺点：

定义：

切比雪夫距离是闵可夫斯基距离的一个特例，当 $\rightarrow \infty$ 时，它计算的是两个点在各个维度上的最大差异。对于两个 $n$ 维向量 $(x_1, x_2, \dots, x_n)$ 和 $(y_1, y_2, \dots, y_n)$ ，切比雪夫距离定义为：
$d_{\text{Chebyshev}}(x, y) = \max_i |x_i - y_i|$
优点：
适用性： 切比雪夫距离在需要考虑最大差异而忽略其他差异的场景中非常有用，比如棋盘上的国王移动问题。
稳健性： 切比雪夫距离对某一维度的极端值更具鲁棒性。

缺点：

定义：

余弦相似度不是传统意义上的“距离”，而是一种衡量两个向量间夹角的相似性。它定义为两个向量的点积除以它们模的乘积：
$\text{Cosine Similarity}(x, y) = \frac{x \cdot y}{\|x\| \|y\|}$
其中， $\cdot y$ 表示向量 $x$ 和 $y$ 的点积， $\|x\|$ 和 $\|y\|$ 分别表示向量 $x$ 和 $y$ 的模。

优点：

缺点：

定义：

杰卡德相似系数是集合之间的相似性度量，定义为两个集合交集的大小除以并集的大小：
$\text{Jaccard Similarity}(A, B) = \frac{|A \cap B|}{|A \cup B|}$
优点：
适用于二值数据： 杰卡德相似系数在比较二值数据（如0/1表示的特征）时非常有用。
简单直观： 容易理解，尤其在处理集合和二进制特征时。