数据挖掘中常用的相似性度量方法

最新推荐文章于 2023-08-30 00:26:45 发布

三斤2016

最新推荐文章于 2023-08-30 00:26:45 发布

阅读量2.2k

点赞数 2

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_42711064/article/details/103993422

版权

本文介绍了数据挖掘中常用的相似性度量方法，包括曼哈顿距离、欧氏距离、闵可夫斯基距离、切比雪夫距离、海明距离、Jaccard系数、Pearson相关系数、余弦相似度、马氏距离、KL散度、PMI和NGD。这些方法广泛应用于数据分析、机器学习等领域，用于衡量数据向量或分布之间的相似度。

摘要由CSDN通过智能技术生成

(1) Manhattan Distance（曼哈顿距离）
(2) Euclidean Distance（欧氏距离）
(3) Minkowsk Distance（闵可夫斯基距离）
(4) Chebyshev Distance （切比雪夫距离）
(5) Hamming Distance（海明距离）
(6) Jaccard Coefficient（Jaccard 系数）
(7) Pearson Correlation Coefficient（Pearson相关系数）
(8) Cosine Similarity（余弦相似度）
(9) Mahalanobis Distance（马氏距离）
(10) Kullback-Leibler Divergence（KL散度）
(11) Pointwise Mutual Information （PMI，点对互信息）
(12) Normalized Google Distance（NGD，正则谷歌距离）

本文将介绍数据分析、数据挖掘、机器学习等领域中常用的相似性度量（Similarity Measurement）方法。

(1) Manhattan Distance（曼哈顿距离）

我们知道曼哈顿街区有一个个方块构成，从一个十字路口（0,0）到另一个十字路口（3,3）的最短路程，不是两点的连线距离，而是两条垂直线的距离和，也就是“曼哈顿距离”。假设有两个 $N$ 维的向量 $x, y$ ， $x$ 和 $y$ 可以分别表示为 $x=(x_1,x_2,\cdots,x_N)$ 和 $y=(y_1,y_2,\cdots,y_N)$ ，那么 $x$ 和 $y$ 的曼哈顿距离可以用 $L_1$ 范式表示，即
$d(x,y)=\sum_{i=1}^{N}|x_i-y_i|$

(2) Euclidean Distance（欧氏距离）

假设有两个 $N$ 维的向量 $x, y$ ， $x$ 和 $y$ 可以分别表示为 $x=(x_1,x_2,\cdots,x_N)$ 和 $y=(y_1,y_2,\cdots,y_N)$ ，那么 $x$ 和 $y$ 的欧式距离可以用 $L_2$ 范式表示，即
$d(x,y)=\sqrt{\sum_{i=1}^{N}(x_i-y_i)^2}$

(3) Minkowsk Distance（闵可夫斯基距离）

假设有两个 $N$ 维的向量 $x, y$ ， $x$ 和 $y$ 可以分别表示为 $x=(x_1,x_2,\cdots,x_N)$ 和 $y=(y_1,y_2,\cdots,y_N)$ ，那么 $x$ 和 $y$ 的闵可夫斯基距离可以用 $L_p$ 范式表示，即
$d(x,y)=\sqrt[^p]{\sum_{i=1}^{N}(x_i-y_i)^p}$