聚类分析基础-相似度计算

相似性:

1;二元变量

对于二元变量,我们通常比较为1的数据占比比例,对于为0的一般不比较相似性,因为没有目标特征的样本其差异无法判断。

2;标量

对只有大小,没有方向的两个样本,用欧几里何距离: e . g : y = ( 1 , 4 , 6 ) , x = ( 3 , 5 , 120 ) e.g:y=(1,4,6),x=(3,5,120) e.g:y=(1,4,6),x=(3,5,120),则两样本之间的相似性为 d = ( 1 − 3 ) 2 + ( 4 − 5 ) 2 + ( 6 − 120 ) 2 = 114 d = \sqrt{(1-3)^2+(4-5)^2+(6-120)^2}=114 d=(13)2+(45)2+(6120)2 =114
,但在标量处理的过程中也有另外一个问题,就是规范化,在例子中(6, 120)是属于不同量级的数,这会加大判定的不平等性。因此常用到规范化。
常见的规范化一般有:1,Min,max,即 x − m i n ( x ) m a x ( x ) − m i n ( x ) \frac{x-min(x)}{max(x)-min(x)} max(x)min(x)xmin(x)
2,mean平均,即 x − m e a n m a x ( x ) − m i n ( x ) \frac{x-mean}{max(x)-min(x)} max(x)min(x)xmean;3,正态规范化,即 x − μ σ \frac{x-\mu}{\sigma} σxμ

同事还有曼哈顿距离 d = ∣ x 1 − y 1 ∣ + . . . + ∣ x i − y i ∣ d=|x_1-y_1|+...+|x_i-y_i| d=x1y1+...+xiyi和闵可夫斯基距离 d = ( x 1 − y 1 ) p + ( x 2 − y 2 ) p + . . . + ( x i − y i ) p p d=\sqrt[p]{(x_1-y_1)^p+(x_2-y_2)^p+...+(x_i-y_i)^p} d=p(x1y1)p+(x2y2)p+...+(xiyi)p ,欧氏距离和曼哈顿距离可以看做闵可夫斯基距离在p2和p=1下的特殊情况

3;混合类型变量

(1);一种方法是变量按类型分组,对每种类型的变量单独聚类分析,但实际分析不可行,各种类型分析结果不能兼容
(2);另一种是将不同的变量组合在单个相异度矩阵中,把所有有意义的变量转换到共同的值域[0,1]上,对象j和j间的相异度d(i,j)定义为:
d ( i , j ) = ∑ f = 1 p δ i j ( f ) d i j ( f ) ∑ f = 1 p δ i j ( f ) d(i,j)=\frac{\sum\limits_{f=1}^p\delta_{ij}^{(f)}d_{ij}^{(f)}}{\sum\limits_{f=1}^{p}\delta_{ij}^{(f)}} d(i,j)=f=1pδij(f)f=1pδij(f)dij(f)
其中如果1, x i f 或 x j f x_{if}或x_{jf} xifxjf数据不存在(对象i或者对象j的变量f无测量值);或者2, x i f = x j f = 0 x_{if}=x_{jf}=0 xif=xjf=0且变量f为非对称二值变量,则标记 δ i j ( f ) = 0 \delta_{ij}^{(f)}=0 δij(f)=0,否则 δ i j ( f ) = 1 \delta_{ij}^{(f)}=1 δij(f)=1
变量f和j直接相异度的计算方式与其具体类型有关;
(1)若变量f为二值变量或者符号变量,则如果 x i f = x j f x_{if}=x_{jf} xif=xjf,那么 d i j ( f ) = 0 d_{ij}^{(f)}=0 dij(f)=0;否则 d i j ( f ) = 1 d_{ij}^{(f)}=1 dij(f)=1
(2)若变量f为间隔数值变量,则 d i j ( f ) = ∣ x i f − x j f ∣ m a x h x h f − m i n h x h f d_{ij}^{(f)}=\frac{|x_{if}-x_{jf}|}{max_{h}x_{hf}-min_{h}x_{hf}} dij(f)=maxhxhfminhxhfxifxjf;其中h为变量f所有可能的对象
(3)若变量f为顺序变量或者比例数值变量,则计算顺序 r i f r_{if} rif z i f = r i f − 1 M f − 1 z_{if}=\frac{r_{if}-1}{M_{f}-1} zif=Mf1rif1,并将 z i f z_{if} zif当作间隔数值变量来进行计算处理

3,对于分类变量

用“取值不同的同位属性数/单个元素的全部属性数”来标识其相异度,就是每个类(同位属性)的数量/总数量(属性数的全部)

4,对于序数变量

对于序数变量,每个值分配一个数,叫做这个数的秩,比如冠军分类1,2,3位各个值的秩,然后用秩作为标量来计算相异度。

5,对于向量

闵可夫斯基无法代表出向量的方向,用余弦度 s ( X , Y ) = X T Y ∣ ∣ ∣ X ∣ ∣ Y ∣ ∣ s(X,Y)=\frac{X^TY}{|||X||Y||} s(X,Y)=XYXTY,余弦度是代表相似度而不是相异度

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值