聚类分析中如何度量两个对象之间的相似性呢?一般有两种方法,一种是对所有对象作特征投影,另一种则是距离计算。前者主要从直观的图像上反应对象之间的相似度关系,而后者则是通过衡量对象之间的差异度来反应对象之间的相似度关系。
如图(1)所示:假设X坐标轴为时间,Y坐标轴为繁殖率,则可以看出三种不同的物种在不同时间段的繁殖情况,由于分别在10,40,80三个数值附近,因此根据繁殖率这一特征便可以分辨出三种物种。特征投影比较直观,但是对象之间的相似性直接的依赖于测量的特征,换一种特征可能会有相反的效果。
距离计算是最为常见的相似度度量方法,通常的对象a,b之间的相似度为Sim(a,b),对象a,b的测量距离为d(a,b),则一般采取Sim(a,b) = 1/(1+d(a,b))得到相似度。常见的距离计算方法有:
(1)欧氏距离:可以简单的描述为多维空间的点点之间的几何距离,,需要注意的是,欧式距离通常采用的是原始数据,而并非规划化后的数据,比如有一属性在1-100内取值,那么便可以直接使用,而并非一定要将其归一到[0,1]区间使用。这样的话,欧式距离的原本意义便被消除了,正是因为这样,所以其优势在于新增对象不会影响到任意两个对象之间的距离。然而,如果对象属性的度量标准不一样,如在度量分数时采取十分制和百分制,对结果影响较大。
(2)曼哈顿距离:如果欧式距离看成是多维空间对象点点的直线距离,那么曼哈顿距离就是计算从一个对象到另一个对象所经过的折线距离,有时也可以进一步的描述为多维空间中对象在各维的平均差,取平均差之后的计算公式为,需要注意的是,曼哈顿距离取消了欧式距离的平方,因此使得离群点的影响减弱。
(3)切比雪夫距离:切比雪夫距离主要表现为在多维空间中,对象从某个位置转移到另外一个对象所消耗的最少距离(这种距离更加形象的体现了第一节中提到的编辑距离概念),因此可以简单的描述为用一维属性决定某对象属于哪个簇,,这就好比我们去辨别一项罕见的现象一样,如果两个对象都存在这一罕见现象,那么这两个对象应该属于同一个簇。
(4)幂距离:可以简单的描述为针对不同的属性给予不同的权重值,决定其属于那个簇,,r,p为自定义的参数,根据实际情况选择,其中,p是用来控制各维的渐进权重,r控制对象间较大差值的渐进权重。当r=p时,即为闵可夫斯基距离,当p=r=1时为曼哈顿距离,当p=r=2时为欧式距离,当p=r并趋于无穷时即为切比雪夫距离(可以用极限理论证明).因此,这几种距离统称为闵氏距离,闵氏距离的不足在于:从横向(各维)看,它等同的看待了不同不同的分量,这种缺陷从切比雪夫距离中可以明显看出,忽略了不同维的差异。从纵向(单维)看,它忽略了不同维的各对象的分布差异,这种差异在统计学中可以用期望,方差,标准差等度量。
(5)余弦相似度:可以简单的描述为空间中两个对象的属性所构成的向量之间的夹角大小。,即当两个向量方向完全相同时,相似度为1,即完全相似,当两个向量方向相反时,则为-1,即完全不相似。
(6)皮尔森相似度:可以描述为不同对象偏离拟合的中心线程度,可以进一步的理解为,许多对象的属性拟合成一条直线或者曲线,计算每个对象相对于这条线的各属性偏离程度,,其中c为共有属性
(7)修正的余弦相似度:由(5)可以看出,如果对于不同维的计算尺度,则会有所偏差。
(8)Jaccard相似度:Jaccard相似度常用于二值型数据的相似度计算。,在数据挖掘中,经常将属性值二值化,通过计算Jaccard相似度,可以简单快速的得到两个对象的相似程度。当然,对于不同的属性,这种二值型程度是不一样的,比如,在中国,熟悉汉语的两个人相似度与熟悉英语的两个人相似度是不同的,因为发生的概率不同。所以通常会对Jaccard计算变换,变换的目的主要是为了拉开或者聚合某些属性的距离
(9)汉明距离:可以描述为将同等长度的字符串由其中一个变换到另一个的最小替换次数。如将a(11100)变换为b(00010),则其距离为4,汉明距离主要是为了解决在通信中数据传输时,改变的二进制位数,也称为信号距离。
(10)加权的欧式距离:由上面的闵氏距离可知,其存在一定的缺陷,如何去减弱这种缺陷呢?一种简单的办法是对不同属性设置不同的权重,各权重之和为1,这样依然可以保证相似度的统一性,但是这种权重该如何选择呢?一种加权的欧式距离方法便可以将各维属性变换到标准化值。假设所有对象的X的均值为m,方差为s,则标准化后的值=(标准化前的值-各属性的均值)/各属性的标准差,所以加权的欧式距离为:
(11)相关距离:相关距离是用来衡量随机变量X,Y之间的相关程度的一种方法,取值为[-1,1],且系数越大,相关度越高。当X,Y线性相关时,若为正线性相关时则为1,相关距离=1-相关系数,相关系数的计算为:
(12)马氏距离:即数据的协方差距离,与欧式距离不同的是它考虑到各属性之间的联系,如考虑性别信息时会带来一条关于身高的信息,因为二者有一定的关联度,而且独立于测量尺度。,其中,XY为样本中的对象,S为协方差矩阵。
通过以上方法的计算,便可以得到两个对象之间的相似度(距离),在实际的计算当中,应该根据不同的对象其属性特点进行有效选择,对象的距离计算对于聚类算法的过程十分重要,直接影响着算法的有效性,所以实际选择时应当仔细选择。
---------------------------------------------------------------------------------------------------------------------------------
--------------------------------------------------------------------------
Author:James Yan
Date:2011-9-22
From: http://blog.csdn.net/zhouyan8603
Note:All references should be cited
--------------------------------------------------------------------------