常见距离算法小结

在数据挖掘的过程中,只用用到了相似性,就会涉及到距离的运用。
怎样选择合适的距离,对最终数据挖掘的准确性非常关键。
因此,这里总结了比较常用几种距离算法,供大家参考。


一、欧氏距离

又称欧几里得距离,其源自于欧式空间中计算两点间的距离公式,是最易于理解的一种距离计算方法。也可推广到数据挖掘中广义的多维度空间。
在这里插入图片描述


二、曼哈顿距离

又称城市街区距离、棋盘距离。我们可以定义曼哈顿距离的正式意义为:在欧几里得空间的固定直角坐标系上的两点所形成的的线段对轴产生的投影的距离总和。
在这里插入图片描述


三、切比雪夫距离

切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步。那么从(x1, y1)走到(x2, y2)最少需要max(|x2-x1|, |y2-y1|)。拓展到无穷维就是:
在这里插入图片描述


四、明科夫斯基距离

又称明氏距离或闵式距离。明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性表述。明氏距离不是一种距离,而是一组距离的定义。两个n维变量的明氏距离定义为:
在这里插入图片描述
其中P是一个变参数。当P=1时,就是曼哈顿距离;当P=2时,就是欧氏距离。


五、马哈拉诺比斯距离

既然欧几里得距离无法忽略指标度量的差异,所以在使用欧氏距离之前需要对底层指标进行数据的标准化,而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量:马哈拉诺比距离,简称马氏距离。

假设有M个样本向量X1-Xm,协方差矩阵记为S,均值记为向量u,则样本向量X到u的马氏距离表示为:
在这里插入图片描述
其中,Xi与Xj之间的距离公式为:
在这里插入图片描述


六、汉明距离

两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要做的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。

在信息编码中,为了增强容错性,应使得编码间的最小汉明距离尽可能大。


七、杰卡德距离

杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度,可用如下公式表示:
在这里插入图片描述


八、相关距离

相关距离的定义为(其中Pxy为相关系数):
在这里插入图片描述

相关系数是衡量两个特征列之间相关程度的一种方法,取值范围[-1,1]。
相关系数的绝对值越大,表明特征列X和Y的相关程度越高。
当取值为1时表明正线性相关,-1时表明负线性相关。
在这里插入图片描述


九、HAUSDORFF距离

Hausdorff距离是描述两组点集之间相似程度的一种度量,它是两个点集之间距离的一种定义形式:
假设有两组集合A={a1,…,ap},B={b1,…,bq},则这个两点即之间的Hausdorff距离定义为:
在这里插入图片描述
其中(||.||是点集AB之间的距离范式)
在这里插入图片描述


十、巴氏距离

在统计学中,巴氏距离(巴塔恰里雅距离 / Bhattacharyya distance)用于测量两离散概率分布。它常在分类中测量类之间的可分离性。在同一定义域X中,概率分布p和q的巴氏距离定义如下:(其中BC(p,q)是Bhattacharyya系数)。
在这里插入图片描述
(1)离散概率分布
在这里插入图片描述
(2)连续概率分布
在这里插入图片描述


十一、EMD距离

EMD(earth mover’s distance)距离最早是来自著名的运输问题的求解,后由Rubner把EMD距离引入了图像检索中。它可以求解某个特征空间中两个多维分布之间的不相似性,通常单个特征之间的距离是给定的并称此距离,为地面距离。

给定两个直方图,一个分布h可以看成是一堆土的集合,另一个分布g可以看成是很多洞的集合,不同的土和洞之间的地面距离是不同的。从而,EMD可以计算出用土填满所有洞的最小工作量或最小代价,此处单位工作量定义为运输单位土时经过单位地面距离的工作量。这样EMD可以定义为:
在这里插入图片描述


十二、KL距离

KL距离是两个概率密度函数p(x)和p^(x)之间距离的测度,其定义为:
在这里插入图片描述
有时称KL距离为交叉熵或相关熵。


十三、夹角余弦距离

几何中夹角余弦用来衡量两个向量方向的差异,机器学习中借用这一概念衡量样本向量之间的差异。
余弦相似度与向量的幅值无关,至于向量的方向相关,在文档相似度和图片相似度计算都有他的身影,需要注意一点的是:余弦相似度受到向量的平移影响,就是当x平移到x+1时,余弦值就会改变。夹角余弦的取值范围为[-1,1]。

两个n维样本点A(x11,x12,…,x1n)与点B(x21,x22,…,x2n)之间的夹角余弦为:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值