我们已经知道了如何通过样本间的距离来评估簇间的距离,本节只剩下最后一个问题了,如何计算样本间的距离,假设样本是n维,常用的距离计算方法有:
1)欧拉距离(Euclidean distance):
2)平方欧式距离(Squared Euclidean distance):
3)曼哈顿距离(Manhattan distance):
4)切比雪夫距离(Chebyshev distance):
5)马氏距离(Mahalanobis distance):
其中S为协方差矩阵。
对于文本或非数值型的数据,我们常用汉明距离(Hamming distance)和编辑距离(Levenshtein distance)表示样本间的距离。
不同的距离度量会影响簇类的形状,因为样本距离因距离度量的不同而不同,如点(1.1)和(0,0)的曼哈顿距离是2,欧式距离是sqrt(2),切比雪夫距离是1。