邻近性度量:相似性和相异性度量
标称属性:可以拥有2个或者更多个属性值
例:标称属性color:red,yellow,black,blue,green.(有5个属性值可选)
问:对象由标称属性刻画,那么怎么判定对象之间的相异性呢?
答:有两个方法
Method 1.简单匹配
d( i , j ) = (p-m) / p
m : p个变量中匹配的个数(表示对象i与对象j之间有相同属性值的个数)
p : 全部变量的个数(表示标称属性可选的属性值的个数,在上例中,p=5)
可以对属性的值赋予权重
Method 2.使用一系列的二进制属性
为M个名义状态的每一个产生一个新的二进制/二元属性
例:对象i:red
则对象i的编码为:10000. 即:red(√)yellow(x)black(x)blue(x)green(x)
显而易见,0代表不出现,1代表出现
那么,接下来就应该使用 二元属性的邻近性度量 来刻画对象之间的相异性