距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。


欧式空间下的距离度量

假设特征空间X是n维实数向量空间R^n, x_i, x_j ∈ X,

这里写图片描述
最常用的距离度量方法时“闵科夫斯基距离”(Minkowski distance),即为x_i - x_j的Lp范数 ||x_i - x_j||p 。x_i, x_j 的 闵科夫斯基距离定义:

这里写图片描述,这里 p >= 1.

当p=2时,称为欧式距离(Euclidean distance):

这里写图片描述

def distance(p0, p1):
    # Computes euclidean distance
    return np.sqrt(np.sum((p0-p1)**2))

当p=1时,称为曼哈顿距离(Manhattan distance):

这里写图片描述

def distance(p0, p1):
    # Computes manhattan distance
    return np.sum(np.abs(p0-p1))

p→∞时,就是切比雪夫距离(Chebyshev distance),距离为所有维度上差值的最大值:

这里写图片描述

非欧式空间下的距离度量

Jaccard距离

通过计算交集的相对大小来获得集合之间的相似度,这种相似度称为Jaccard相似度。

集合S和T的Jaccard相似度SIM(S,T):

这里写图片描述

例:集合S和T的交集有3个元素,并集中有8个元素

SIM(S,T)=3/8. S I M ( S , T ) = 3 / 8.

与Jaccard相似度相反,集合的Jaccard距离用集合中不同元素占所有元素的比例来衡量,可以定义为

d(x,y)=1SIM(x,y) d ( x , y ) = 1 − S I M ( x , y )

余弦距离(cosine distance)

在有维度的空间下余弦距离才有意义,空间中的点可以代表方向。

夹角余弦等于它们的内积x·y除以两个向量的L2范式乘积。
这里写图片描述

夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1。

海明距离(Hamming distance)

给定一个向量空间,海明距离定义为两个向量中不同分量的个数。海明距离往往应用于布尔向量。

例:10101和11110的海明距离为3。第2、4、5位元素不同。

编辑距离

编辑距离只适用于字符串比较。两个字符串x=x1x2···xny=y1y2···ym的编辑距离等于将x转换为y所需要的单字符插入及删除操作的最小数目。

或者,另一种定义和计算编辑d(x,y)的方法基于x和y的最长公共子序列(longest common subsequence, LCS)的计算。通过在x和y的某些位置上进行删除操作能够得到某个字符串,基于上述方法构造出x和y的最长公共字符串就是x和y的LCS。编辑距离等于x与y的长度之和减去它们呢的LCS的长度的两倍。

d(x,y)=len(x)+len(y)2len(LCS(x,y)) d ( x , y ) = l e n ( x ) + l e n ( y ) − 2 ∗ l e n ( L C S ( x , y ) )

周志华 《机器学习》 9.3 P199

《统计学习方法》 3.2.2 P38

《Mining of Massive Datasets》 3.5 P59

https://en.wikipedia.org/wiki/Norm_%28mathematics%29#Euclidean_norm

https://en.wikipedia.org/wiki/Cosine_similarity

https://en.wikipedia.org/wiki/Kullback–Leibler_divergence#Symmetrised_divergence

https://my.oschina.net/hunglish/blog/787596

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值