1.闵可夫斯基距离
给定样本集合
X
X
X,
X
X
X是
m
m
m维实数向量空间
R
m
R^m
Rm中点的集合,其中
x
i
,
x
j
∈
X
x_i,x_j \in X
xi,xj∈X,
x
i
=
(
x
1
i
,
x
2
i
,
⋯
,
x
m
i
)
T
x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T
xi=(x1i,x2i,⋯,xmi)T,
x
i
=
(
x
1
j
,
x
2
j
,
⋯
,
x
m
j
)
T
x_i=(x_{1j},x_{2j},\cdots,x_{mj})^T
xi=(x1j,x2j,⋯,xmj)T,样本
x
i
x_i
xi与样本
x
j
x_j
xj的闵可夫斯基距离(Minkowski distance)为
d
i
j
=
(
∑
k
=
1
m
∣
x
k
i
−
x
k
j
∣
p
)
1
p
d_{ij}=(\sum_{k=1}^{m}|x_{ki}-x_{kj}|^p)^\frac{1}{p}
dij=(k=1∑m∣xki−xkj∣p)p1
其中
p
≥
1
p≥1
p≥1。
p
=
1
p=1
p=1时称为曼哈顿距离(Manhattan distance)
p
=
2
p=2
p=2时称为欧式距离(Euclidean distance)
p
=
∞
p=∞
p=∞时称为切比雪夫距离(Chebyshev distance),通过夹逼法不难证明此时
d
i
j
=
max
∣
x
k
i
−
x
k
j
∣
d_{ij}=\max|x_{ki}-x_{kj}|
dij=max∣xki−xkj∣
闵可夫斯基距离越大相似度越小
2.马哈拉诺比斯距离
给定一个样本集合
X
X
X,
X
=
[
x
i
j
]
m
×
n
X=[x_{ij}]_{m×n }
X=[xij]m×n,其协方差矩阵记作
S
S
S。样本
x
i
x_i
xi与样本
x
j
x_j
xj的马哈拉诺比斯距离为
d
i
j
=
[
(
x
i
−
x
j
)
T
S
−
1
(
x
i
−
x
j
)
]
1
2
d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^\frac{1}{2}
dij=[(xi−xj)TS−1(xi−xj)]21
当S为单位矩阵,马哈拉诺比斯距离为欧氏距离。
马哈拉诺比斯距离越大相似度越小
3.相关系数
样本
x
i
x_i
xi与
x
j
x_j
xj之间的相关系数为:
r
i
j
=
∑
k
=
1
m
(
x
k
i
−
x
i
ˉ
)
(
x
k
j
−
x
j
ˉ
)
[
∑
k
=
1
m
(
x
k
i
−
x
i
ˉ
)
2
∑
k
=
1
m
(
x
k
j
−
x
j
ˉ
)
2
]
r_{ij}=\frac{\sum_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j})}{[\sum_{k=1}^{m}{(x_{ki}-\bar{x_i}}^{})^2\sum_{k=1}^{m}(x_{kj}-\bar{x_j})^2]}
rij=[∑k=1m(xki−xiˉ)2∑k=1m(xkj−xjˉ)2]∑k=1m(xki−xiˉ)(xkj−xjˉ)
相关系数越接近于1,相关性越大,越接近于0,相关性越小
4.夹角余弦
样本
x
i
x_i
xi与
x
j
x_j
xj之间的夹角余弦为:
s
i
j
=
∑
k
=
1
m
x
k
i
x
k
j
[
∑
k
=
1
m
x
k
i
2
∑
k
=
1
m
x
k
j
2
]
1
2
s_{ij}=\frac{\sum_{k=1}^{m}x_{ki}x_{kj}}{[\sum_{k=1}^{m}x_{ki}^2\sum_{k=1}^{m}x_{kj}^2]^\frac{1}{2}}
sij=[∑k=1mxki2∑k=1mxkj2]21∑k=1mxkixkj
夹角余弦越接近于1,相关性越大,越接近于0,相关性越小