欧氏距离:连接两个点的线段的长度。缺点:尽管这是一种常用的距离度量,但欧式距离并不是尺度不变的,这意味着所计算的距离可能会根据特征的单位发生倾斜。通常,在使用欧式距离度量之前,需要对数据进行归一化处理。随着数据维数的增加,欧氏距离的作用也就越小。这与维数灾难(curse of dimensionality)有关
余弦相似度:两个方向完全相同的向量的余弦相似度为 1,而两个彼此相对的向量的余弦相似度为 - 1。缺点:当两个向量长度不相等时,汉明距离使用起来很麻烦。当幅度是重要指标时,建议不要使用此距离指标
汉明距离:两个向量之间不同值的个数。缺点:当两个向量长度不相等时,汉明距离使用起来很麻烦。当幅度是重要指标时,建议不要使用此距离指标。
曼哈顿距离通常称为出租车距离或城市街区距离:计算实值向量之间的距离。缺点:尽管曼哈顿距离在高维数据中似乎可以工作,但它比欧式距离直观性差,尤其是在高维数据中使用时。此外,由于它可能不是最短路径,有可能比欧氏距离给出一个更高的距离值。
切比雪夫距离:为两个向量在任意坐标维度上的最大差值。缺点:切比雪夫距离通常用于特定的用例,这使得它很难像欧氏距离或余弦相似度那样作为通用的距离度量。因此,在确定适合用例时才使用它。
闵氏距离:
其中:p=1:曼哈顿距离;p=2:欧氏距离;p=∞:切比雪夫距离。
雅卡尔指数(交并比):是用于比较样本集相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度,其定义为两个集合交集大小与并集大小之间的比例。缺点:雅卡尔指数的一个主要缺点是它受数据大小的影响很大。
半正矢距离:是指球面上的两点在给定经纬度条件下的距离。缺点:假定这些点位于一个球体上。
Sørensen-Dice 系数:度量样本集的相似性和多样性。缺点:正如雅卡尔指数,Sørensen-Dice 系数也夸大了很少或没有真值的集合的重要性,因此,它可以控制多集合的平均得分,还可以控制多组平均得分并按相关集合的大小成反比地加权每个项目,而不是平等对待它们。