机器学习案例系列教程——距离度量方法总结

最新推荐文章于 2022-08-21 18:30:00 发布

腾讯AI架构师

最新推荐文章于 2022-08-21 18:30:00 发布

阅读量4.6k

点赞数

分类专栏： python 机器学习后端爬虫系列课程文章标签：数据挖掘距离度量欧氏距离余弦距离相关系数

python 机器学习后端爬虫系列课程专栏收录该内容

175 篇文章 128 订阅

订阅专栏

在数据挖掘中，无论是对数据进行分类、聚类还是异常检测、关联性分析，都建立在数据之间相似性或相异性的度量基础上。通常使用距离作为数据之间相似性或相异性的度量方法，常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵。

欧式距离

n维空间中两个样本点x和y之间的欧几里得距离定义如下：

d (x, y) = Σ n k = 1 (x k - y k) 2 - - - - - - - - - - - - \sqrt

$d(x,y)=\sqrt{\Sigma_{k=1}^n (x_k-y_k)^2}$
标准化欧式距离公式如下：

d (x, y) = Σ n k = 1 (x k - y k s k) 2 - - - - - - - - - - - - \sqrt

$d(x,y)=\sqrt{\Sigma_{k=1}^n (\dfrac{x_k-y_k}{s_k})^2}$

式中， $s_k$ 为数据每一维的方差，标准化欧式距离考虑了数据各维分量的量纲和分布不一样，相当于对每维数据做了标准化处理。欧式距离适用于度量数据属性无关、值域或分布相同的数据对象。

曼哈顿距离

曼哈顿距离也称为街区距离，计算公式如下：

d (x, y) = Σ n k = 1 | x k - y k |

$d(x,y)=\Sigma_{k=1}^n \left|x_k-y_k\right|$
切比雪夫距离

d (x, y) = lim n \to \infty (Σ n k = 1 (| x k - y k |) r) 1 r = m a x k (| x k - y k |)

$d(x,y) = \lim_{n\rightarrow \infty} (\Sigma_{k=1}^n (\left|x_k-y_k\right|)^r)^\dfrac{1}{r} = max_k (\left|x_k-y_k\right|)$

上面两个公式是等价的。

闵可夫斯基距离

d (x, y) = (Σ n k = 1 (| x k - y k |) r) 1 r

$d(x,y)=(\Sigma_{k=1}^n (\left|x_k-y_k\right|)^r)^\dfrac{1}{r}$

式中，r是一个可变参数，根据参数r取值的不同，闵可夫斯基距离可以表示一类距离
r = 1时，为曼哈顿距离
r = 2时，为欧式距离
r →∞时，为切比雪夫距离
闵可夫斯基距离包括欧式距离、曼哈顿距离、切比雪夫距离都假设数据各维属性的量纲和分布（期望、方差）相同，因此适用于度量独立同分布的数据对象。

汉明距离

两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数，也就是将一个字符串变换为另一个字符串所需要替换的最小字符个数，例如

H a m m i n g D i s t a n c e (1001001, 0101101) = 3

$Hamming Distance(1001001, 0101101) = 3$

汉明距离常用于信息编码中。

余弦距离

余弦相似度公式定义如下：

c o s (x, y) = x y | x | | y | = Σ n k = 1 x k y k Σ n k = 1 x 2 k - - - - - - \sqrt Σ n k = 1 y 2 k - - - - - - \sqrt

$cos⁡(x,y)=\dfrac{xy}{\left|x\right|\left|y\right|} = \dfrac{\Sigma_{k=1}^n x_k y_k}{\sqrt{\Sigma_{k=1}^n x_k^2} \sqrt{\Sigma_{k=1}^n y_k^2}}$

余弦相似度实际上是向量x和y夹角的余弦度量，可用来衡量两个向量方向的差异。如果余弦相似度为1，则x和y之间夹角为0°，两向量除模外可认为是相同的；如果预先相似度为0，则x和y之间夹角为90°，则认为两向量完全不同。在计算余弦距离时，将向量均规范化成具有长度1，因此不用考虑两个数据对象的量值。

余弦相似度常用来度量文本之间的相似性。文档可以用向量表示，向量的每个属性代表一个特定的词或术语在文档中出现的频率，尽管文档具有大量的属性，但每个文档向量都是稀疏的，具有相对较少的非零属性值。

马氏距离

马氏距离的计算公式如下：

m a h a l a n o b i s (x, y) = (x - y) Σ - 1 (x - y) T

$mahalanobis(x,y)=(x-y)\Sigma^{-1}(x-y)^T$

式中， $\Sigma^{-1}$ 是数据协方差矩阵的逆。
前面的距离度量方法大都假设样本独立同分布、数据属性之间不相关。马氏距离考虑了数据属性之间的相关性，排除了属性间相关性的干扰，而且与量纲无关。若协方差矩阵是对角阵，则马氏距离变成了标准欧式距离；若协方差矩阵是单位矩阵，各个样本向量之间独立同分布，则变成欧式距离。

Jaccard系数

Jaccard系数定义为两个集合A和B的交集元素在其并集中所占的比例，即

J (A, B) = A \cap B A \cup B

$J(A,B)=\dfrac{A\cap B}{A\cup B}$

对于两个数据对象x和y，均由n个二元属性组成，则

J = f 11 f 01 + f 10 + f 11

$J=\dfrac{f_{11}}{f_{01}+f_{10}+f_{11}}$

式中， $f_{11}$ 为x取1且y取1的属性个数， $f_{01}$ 为x取0且y取1的属性个数， $f_{10}$ 为x取1且y取0的属性个数。
Jaccard系数适用于处理仅包含非对称的二元属性的对象。
广义Jaccard系数定义如下：

E J (x, y) = x y ‖ x ‖ 2 + ‖ y ‖ 2 - x y

$EJ(x,y)=\dfrac{xy}{‖x‖^2+‖y‖^2-xy}$

广义Jaccard系数又称为Tanimoto系数，可用于处理文档数据，并在二元属性情况下归约为Jaccard系数。

信息熵

信息熵描述的是整个系统内部样本之间的一个距离，是衡量分布的混乱程度或分散程度的一种度量。样本分布越分散（或者说分布越平均），信息熵越大；分布越有序（或者说分布越集中），信息熵就越小。给定样本集X的信息熵公式定义如下：

E n t r o p y (X) = Σ n i = 1 - p i l o g 2 (p i)

$Entropy(X)=\Sigma_{i=1}^n -p_i log_2⁡(p_i)$

式中，n为样本集的分类数， $p_i$ 为第i类元素出现的概率。当S中n个分类出现的概率一样大时，信息熵取最大值 $log2(n)$ 。当X只有一个分类时，信息熵取最小值0。信息熵用于度量不确定性，在决策树分类中，信息熵可用于计算子树划分前后的信息增益作为选择最佳划分的度量。

腾讯AI架构师

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习案例系列教程——距离度量方法总结

在数据挖掘中，无论是对数据进行分类、聚类还是异常检测、关联性分析，都建立在数据之间相似性或相异性的度量基础上。通常使用距离作为数据之间相似性或相异性的度量方法，常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵。欧式距离 n维空间中两个样本点x和y之间的欧几里得距离定义如下： d(x,y)=Σn...
复制链接

扫一扫