属性类型
标称的 好 坏 员工编号
序数的 1 2 3 4 5 6 ...
区间或比率的 意味着数据时连续的 d=|x-y| s= -d 或 s=1/(1+d) 或 s=e^-d s= 1-(归一化的d)
闵可夫斯基距离 p=1 p=2 p=oo
非度量相异度:
集合差
A={1,2,3,4} B={2,3,4}
A-B={1} B-A=空集 可定义相异度为d(A,B)= size(A-B)+size(B-A)
时间
d(t1,t2)= if t1<t2 t2-t1
if t1>=t2 24+(t2-t1)
二元属性相似性度量
SMC=F00 F11
Jarccard=F11
对于向量 → 余弦相似度 cos(x,y)