1、概述
相似性和相异性都成为邻近性(Proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则他们的相似性度量将返回0。
2、数据矩阵和相异性矩阵
假设我们有n个对象,每个对象由p个属性进行刻画。那么得到对象集X = (x1, x2, x3, …. xn) ,对象xi的属性集为 P = (pi1, pi2, pi3 … pip) , 1 < i < n。
数据矩阵(data matrix)
或称对象-属性结构。这种数据结构用关系表的形式或 n x p(n个对象 x p个属性)矩阵存放n个数据对象:
相异性矩阵(dissimilarity matrix)
或称对象-对象结构。存放n个对象两两之间的邻近度,通常用一个n x n矩阵表示:
其中d(i, j)是对象i和对象j之间的相异性值。一般而言,d(i, j)是一个非负的数值。相似性可以表示成相异性度量的函数:sim(i, j) = 1 – d(i, j)。
数据矩阵由两种实体或者“事物”组成,即行(代表对象)和列(代表属性)。因而,数据矩阵经常被称之为二模(two mode)矩阵。相异性矩阵只包含一类实体,因此被称之为一模(one mode)矩阵。许多聚类和最邻近算法都在相异性矩阵上运行。在使用这些算法之前,可以把