距离度量需要满足以下性质:
非负性:
同一性:当且仅当
对称性:
直递性:
给定样本与
,最常用的是“闵可夫斯基距离”(Minkowski distance):
当p=2时,闵可夫斯基距离即欧氏距离(Euclidean distance)
当p=1时,闵可夫斯基距离即曼哈顿距离(Manhattan distance)
我们常将属性划分为“连续属性”和“离散属性”。前者在定义域上有无穷多个可能的取值,后者在定义域上是有限个取值。然而,在讨论距离计算时,属性是否定义了“序”关系更为重要。例如,
定义域为{1,2,3}能直接在属性值上计算距离:“1”与“2”比较接近,与“3”比较远,这样的属性称为“有序属性”。而定义域为{飞机,火车,轮船}这样的离散属性不能直接在属性值上计算距离,称为“无序属性”。显然,闵可夫斯基距离可用于有序属性。
对于无序属性,可采用VDM(Value Difference Metric)。令表示在属性u上取值为a的样本数,
表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为:
将闵可夫斯基距离和VDM结合可处理混合属性,假定有个有序属性,
个无序属性,不失一般性,令有序属性排列在无序属性之前,则:
当样本空间中不同属性的重要性不同时,可使用“加权距离”,以加权闵可夫斯基距离为例:
其中权重表征不同属性的重要性,通常
通常我们是基于某种形式的距离来定义“相似度度量”,距离越大,相似度越小。然而,用于相似度度量的距离未必一定满足距离度量的所有基本性质,尤其是直递性。这样的距离称为“非度量距离”。