数据科学中常见的9种距离度量方法

欧氏距离:连接两个点的线段的长度。缺点:尽管这是一种常用的距离度量,但欧式距离并不是尺度不变的,这意味着所计算的距离可能会根据特征的单位发生倾斜。通常,在使用欧式距离度量之前,需要对数据进行归一化处理。随着数据维数的增加,欧氏距离的作用也就越小。这与维数灾难(curse of dimensionality)有关

å¾ç

余弦相似度:两个方向完全相同的向量的余弦相似度为 1,而两个彼此相对的向量的余弦相似度为 - 1。缺点:当两个向量长度不相等时,汉明距离使用起来很麻烦。当幅度是重要指标时,建议不要使用此距离指标

å¾ç

汉明距离:两个向量之间不同值的个数。缺点:当两个向量长度不相等时,汉明距离使用起来很麻烦。当幅度是重要指标时,建议不要使用此距离指标。

曼哈顿距离通常称为出租车距离或城市街区距离:计算实值向量之间的距离。缺点:尽管曼哈顿距离在高维数据中似乎可以工作,但它比欧式距离直观性差,尤其是在高维数据中使用时。此外,由于它可能不是最短路径,有可能比欧氏距离给出一个更高的距离值。

å¾ç

切比雪夫距离:为两个向量在任意坐标维度上的最大差值。缺点:切比雪夫距离通常用于特定的用例,这使得它很难像欧氏距离或余弦相似度那样作为通用的距离度量。因此,在确定适合用例时才使用它。

å¾ç

闵氏距离:

å¾ç

其中:p=1:曼哈顿距离;p=2:欧氏距离;p=∞:切比雪夫距离。

雅卡尔指数(交并比):是用于比较样本集相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度,其定义为两个集合交集大小与并集大小之间的比例。缺点:雅卡尔指数的一个主要缺点是它受数据大小的影响很大。

å¾ç

半正矢距离:是指球面上的两点在给定经纬度条件下的距离。缺点:假定这些点位于一个球体上。

å¾ç

 Sørensen-Dice 系数:度量样本集的相似性和多样性。缺点:正如雅卡尔指数,Sørensen-Dice 系数也夸大了很少或没有真值的集合的重要性,因此,它可以控制多集合的平均得分,还可以控制多组平均得分并按相关集合的大小成反比地加权每个项目,而不是平等对待它们。

å¾ç

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值