机器学习中常用的距离和相似性度量方法

最新推荐文章于 2022-06-08 16:39:42 发布

随心1993

最新推荐文章于 2022-06-08 16:39:42 发布

阅读量3.1k

点赞数 2

分类专栏：机器学习文章标签：机器学习数据挖掘距离度量

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/colourful_sky/article/details/78288499

版权

本文介绍了机器学习和数据挖掘中常用的几种距离和相似性度量方法，包括欧氏距离、曼哈顿距离、闵氏距离、马氏距离、海明距离、杰卡德距离、余弦相似度、皮尔森相关系数、切比雪夫距离、编辑距离和K-L散度。这些度量用于衡量个体间的差异和相似性，是理解和比较数据集的关键工具。

摘要由CSDN通过智能技术生成

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。根据数据特性的不同，可以采用不同的度量方法。

以下简要介绍机器学习和数据挖掘中一些常见的距离公式，包括：

欧氏距离

欧几里得度量（euclidean metric）（也称欧氏距离）：以古希腊数学家欧几里得命名的距离；在二维和三维空间中的欧氏距离就是两点之间的实际距离。也就是我们直观的两点之间直线最短的直线距离。

计算公式：

d = \sum i = 1 n (x i - y i) 2 - - - - - - - - - - \sqrt

$d=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}$

曼哈顿距离

出租车几何或曼哈顿距离（Manhattan Distance）： 是由十九世纪的赫尔曼·闵可夫斯基所创词汇，是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和。我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

计算公式：

d = \sum i = 1 n | x i - y i |

$d=\sum_{i=1}^n|x_i-y_i|$

闵氏距离

闵可夫斯基距离或闵氏距离（Minkowski Distance）：以俄罗斯数学家闵可夫斯基命名的距离；是欧式距离的推广，p=1时等价于曼哈顿距离，p=2时等价于欧氏距离，和p-范数等值。

计算公式：

d = \sum i = 1 n | x i - y i | p - - - - - - - - - - \sqrt p

$d=\sqrt[p]{\sum_{i=1}^n|x_i-y_i|^p}$

马氏距离

马氏距离(Mahalanobis distance)： 由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的(scale-invariant)，即独立于测量尺度，如果协方差矩阵为单位矩阵，马氏距离就简化为欧式距离，如果协方差矩阵为对角阵，其也可称为正规化的马氏距离。

计算公式：
对于一个均值为 μ=(μ1,μ2,μ3,...μp)T