相似性:
1;二元变量
对于二元变量,我们通常比较为1的数据占比比例,对于为0的一般不比较相似性,因为没有目标特征的样本其差异无法判断。
2;标量
对只有大小,没有方向的两个样本,用欧几里何距离:
e
.
g
:
y
=
(
1
,
4
,
6
)
,
x
=
(
3
,
5
,
120
)
e.g:y=(1,4,6),x=(3,5,120)
e.g:y=(1,4,6),x=(3,5,120),则两样本之间的相似性为
d
=
(
1
−
3
)
2
+
(
4
−
5
)
2
+
(
6
−
120
)
2
=
114
d = \sqrt{(1-3)^2+(4-5)^2+(6-120)^2}=114
d=(1−3)2+(4−5)2+(6−120)2=114
,但在标量处理的过程中也有另外一个问题,就是规范化,在例子中(6, 120)是属于不同量级的数,这会加大判定的不平等性。因此常用到规范化。
常见的规范化一般有:1,Min,max,即
x
−
m
i
n
(
x
)
m
a
x
(
x
)
−
m
i
n
(
x
)
\frac{x-min(x)}{max(x)-min(x)}
max(x)−min(x)x−min(x)
2,mean平均,即
x
−
m
e
a
n
m
a
x
(
x
)
−
m
i
n
(
x
)
\frac{x-mean}{max(x)-min(x)}
max(x)−min(x)x−mean;3,正态规范化,即
x
−
μ
σ
\frac{x-\mu}{\sigma}
σx−μ
同事还有曼哈顿距离 d = ∣ x 1 − y 1 ∣ + . . . + ∣ x i − y i ∣ d=|x_1-y_1|+...+|x_i-y_i| d=∣x1−y1∣+...+∣xi−yi∣和闵可夫斯基距离 d = ( x 1 − y 1 ) p + ( x 2 − y 2 ) p + . . . + ( x i − y i ) p p d=\sqrt[p]{(x_1-y_1)^p+(x_2-y_2)^p+...+(x_i-y_i)^p} d=p(x1−y1)p+(x2−y2)p+...+(xi−yi)p,欧氏距离和曼哈顿距离可以看做闵可夫斯基距离在p2和p=1下的特殊情况
3;混合类型变量
(1);一种方法是变量按类型分组,对每种类型的变量单独聚类分析,但实际分析不可行,各种类型分析结果不能兼容
(2);另一种是将不同的变量组合在单个相异度矩阵中,把所有有意义的变量转换到共同的值域[0,1]上,对象j和j间的相异度d(i,j)定义为:
d
(
i
,
j
)
=
∑
f
=
1
p
δ
i
j
(
f
)
d
i
j
(
f
)
∑
f
=
1
p
δ
i
j
(
f
)
d(i,j)=\frac{\sum\limits_{f=1}^p\delta_{ij}^{(f)}d_{ij}^{(f)}}{\sum\limits_{f=1}^{p}\delta_{ij}^{(f)}}
d(i,j)=f=1∑pδij(f)f=1∑pδij(f)dij(f)
其中如果1,
x
i
f
或
x
j
f
x_{if}或x_{jf}
xif或xjf数据不存在(对象i或者对象j的变量f无测量值);或者2,
x
i
f
=
x
j
f
=
0
x_{if}=x_{jf}=0
xif=xjf=0且变量f为非对称二值变量,则标记
δ
i
j
(
f
)
=
0
\delta_{ij}^{(f)}=0
δij(f)=0,否则
δ
i
j
(
f
)
=
1
\delta_{ij}^{(f)}=1
δij(f)=1
变量f和j直接相异度的计算方式与其具体类型有关;
(1)若变量f为二值变量或者符号变量,则如果
x
i
f
=
x
j
f
x_{if}=x_{jf}
xif=xjf,那么
d
i
j
(
f
)
=
0
d_{ij}^{(f)}=0
dij(f)=0;否则
d
i
j
(
f
)
=
1
d_{ij}^{(f)}=1
dij(f)=1
(2)若变量f为间隔数值变量,则
d
i
j
(
f
)
=
∣
x
i
f
−
x
j
f
∣
m
a
x
h
x
h
f
−
m
i
n
h
x
h
f
d_{ij}^{(f)}=\frac{|x_{if}-x_{jf}|}{max_{h}x_{hf}-min_{h}x_{hf}}
dij(f)=maxhxhf−minhxhf∣xif−xjf∣;其中h为变量f所有可能的对象
(3)若变量f为顺序变量或者比例数值变量,则计算顺序
r
i
f
r_{if}
rif和
z
i
f
=
r
i
f
−
1
M
f
−
1
z_{if}=\frac{r_{if}-1}{M_{f}-1}
zif=Mf−1rif−1,并将
z
i
f
z_{if}
zif当作间隔数值变量来进行计算处理
3,对于分类变量
用“取值不同的同位属性数/单个元素的全部属性数”来标识其相异度,就是每个类(同位属性)的数量/总数量(属性数的全部)
4,对于序数变量
对于序数变量,每个值分配一个数,叫做这个数的秩,比如冠军分类1,2,3位各个值的秩,然后用秩作为标量来计算相异度。
5,对于向量
闵可夫斯基无法代表出向量的方向,用余弦度 s ( X , Y ) = X T Y ∣ ∣ ∣ X ∣ ∣ Y ∣ ∣ s(X,Y)=\frac{X^TY}{|||X||Y||} s(X,Y)=∣∣∣X∣∣Y∣∣XTY,余弦度是代表相似度而不是相异度