在机器学习中,无论是分类问题、聚类问题或降维问题,经常需要度量不同样本之间的相似性。不过如何友好地表征不同样本之前的相似性?通常采用的方法就是计算样本间的“距离”。
距离计算方法有很多,对于实际遇到的问题到底采用什么样的方法来计算距离是很讲究的,因为相似性度量的好坏很多时候直接关系到原始问题的求解结果。为了加深大家对各个距离方法的理解,本文就对常用的相似性度量策略作一个总结,希望对各位后续处理机器学习问题有所帮助。
欧式距离
欧氏距离是一个通常采用的距离定义,指在 n 维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。两个
d(x1,x2)=∑i=1n(x1i−x2i)2‾‾‾‾‾‾‾‾‾‾‾‾‾‾⎷.
曼哈顿距离
曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所创的词汇 ,是一种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。两个 n 维向量
d(x1,x2)=∑i=1n|x1i−x2i|.