特征空间中两个实例点的距离是两个实例点相似程度的反映。特征空间一般是n维实数向量空间 R n \bold R^n Rn(即欧式空间)。使用的距离是欧式距离,但也可以是其他距离,如更一般的 L p L_p Lp距离( L p d i s t a n c e L_p\space distance Lp distance)或Minkowski距离。
设特征空间
χ
\chi
χ是n维实数向量空间
R
n
\bold R^n
Rn,
x
i
,
x
j
∈
χ
,
x
l
=
(
x
i
(
1
)
,
x
i
(
2
)
,
.
.
.
,
x
i
(
n
)
)
T
,
x
j
=
(
x
j
(
1
)
,
x
j
(
2
)
,
.
.
.
,
x
j
(
n
)
)
T
x_i,x_j\in \chi, \quad x_l=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,x_j=(x_j^{(1)},x_j^{(2)},...,x_j^{(n)})^T
xi,xj∈χ,xl=(xi(1),xi(2),...,xi(n))T,xj=(xj(1),xj(2),...,xj(n))T,
x
i
,
x
j
x_i,x_j
xi,xj的
L
p
L_p
Lp距离定义为
L
p
(
x
i
,
x
j
)
=
(
∑
l
=
1
n
∣
x
i
(
l
)
−
x
j
(
l
)
∣
p
)
1
p
L_p(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}}
Lp(xi,xj)=(l=1∑n∣xi(l)−xj(l)∣p)p1
这里
p
≥
1
p\geq 1
p≥1。当
p
=
2
p=2
p=2时,称为欧氏距离(Euclidean distance),即
L
2
(
x
i
,
x
j
)
=
(
∑
l
=
1
n
∣
x
i
(
l
)
−
x
j
(
l
)
∣
2
)
1
2
L_2(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^2)^{\frac{1}{2}}
L2(xi,xj)=(l=1∑n∣xi(l)−xj(l)∣2)21
当
p
=
1
p=1
p=1时,称为曼哈顿距离(Manhattan distance),即
L
1
(
x
i
,
x
j
)
=
∑
l
=
1
n
∣
x
i
(
l
)
−
x
j
(
l
)
∣
L_1(x_i,x_j)=\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|
L1(xi,xj)=l=1∑n∣xi(l)−xj(l)∣
当
p
=
∞
p=\infty
p=∞时,它是各个坐标距离的最大值,即
L
∞
(
x
i
,
x
j
)
=
m
a
x
l
∣
x
i
(
l
)
−
x
j
(
l
)
∣
L_{\infty}(x_i,x_j)=max_{l}|x_i^{(l)}-x_j^{(l)}|
L∞(xi,xj)=maxl∣xi(l)−xj(l)∣
下图是二维空间p取不同值时,与原点的
L
p
L_p
Lp距离为1(
L
p
=
1
L_p=1
Lp=1)的图形。
参考资料:
《统计学习方法》