1. 欧氏距离(Euclidean Distance)
欧氏空间中两点间的距离公式。
空间上两点
(x1,x2,...xn)
(
x
1
,
x
2
,
.
.
.
x
n
)
与
(y1,y2,...,yn)
(
y
1
,
y
2
,
.
.
.
,
y
n
)
间的欧氏距离:
d=∑ni=1(xi−yi)2−−−−−−−−−−−−√
d
=
∑
i
=
1
n
(
x
i
−
y
i
)
2
2. 曼哈顿距离(Manhattan Distance)
曼哈顿距离也称为城市街区距离(City Block distance),在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶的距离就是曼哈顿距离。
空间上两点
(x1,x2,...xn)
(
x
1
,
x
2
,
.
.
.
x
n
)
与
(y1,y2,...,yn)
(
y
1
,
y
2
,
.
.
.
,
y
n
)
间的曼哈顿距离:
d=∑ni=1|xi−yi|
d
=
∑
i
=
1
n
|
x
i
−
y
i
|
3. 切比雪夫距离 ( Chebyshev Distance )
国际象棋中国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子
(x1,x2)
(
x
1
,
x
2
)
走到格子
(y1,y2)
(
y
1
,
y
2
)
最少需要
max(|x1−y1|,|x2−y2|)
m
a
x
(
|
x
1
−
y
1
|
,
|
x
2
−
y
2
|
)
步 。
空间上两点
(x1,x2,...xn)
(
x
1
,
x
2
,
.
.
.
x
n
)
与
(y1,y2,...,yn)
(
y
1
,
y
2
,
.
.
.
,
y
n
)
间的切比雪夫距离:
d=maxni=1(|xi−yi|)
d
=
m
a
x
i
=
1
n
(
|
x
i
−
y
i
|
)
4. 闵可夫斯基距离(Minkowski Distance)
闵氏距离是一类距离的定义。
空间上两点
(x1,x2,...xn)
(
x
1
,
x
2
,
.
.
.
x
n
)
与
(y1,y2,...,yn)
(
y
1
,
y
2
,
.
.
.
,
y
n
)
间的闵可夫斯基距离:
∑ni=1|xi−yi|p−−−−−−−−−−−−√p
∑
i
=
1
n
|
x
i
−
y
i
|
p
p
1. 当
p=1
p
=
1
时,就是曼哈顿距离
2. 当
p=2
p
=
2
时,就是欧氏距离
3. 当
p→+∞
p
→
+
∞
时,就是切比雪夫距离
5. 标准化欧氏距离 (Standardized Euclidean distance )
先将样本标准化到期望为0,方差为1,再求其距离:
X∗=X−μσ
X
∗
=
X
−
μ
σ
d=∑ni=1(xi−yiσi)2−−−−−−−−−−−√
d
=
∑
i
=
1
n
(
x
i
−
y
i
σ
i
)
2
6. 马氏距离(Mahalanobis Distance)
设
M
M
个样本向量 的协方差矩阵为
S
S
,均值为,则样本向量
X
X
到的马氏距离表示为:
D(X)=(X−μ⃗ )τS−1(X−μ⃗ )−−−−−−−−−−−−−−−−−√
D
(
X
)
=
(
X
−
μ
→
)
τ
S
−
1
(
X
−
μ
→
)
而其中向量
Xi
X
i
与
Xj
X
j
之间的马氏距离定义为:
D(Xi,Xj)=(Xi−Xj)τS−1(Xi−Xj)−−−−−−−−−−−−−−−−−−−−√
D
(
X
i
,
X
j
)
=
(
X
i
−
X
j
)
τ
S
−
1
(
X
i
−
X
j
)
1. 若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成欧氏距离。
2. 若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
7. 汉明距离(Hamming Distance)
两个等长字符串
s1
s
1
与
s2
s
2
之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。
应用:信息编码(为了增强容错性,应使得编码间的最小汉明距离尽可能大)。
8. 杰卡德相似系数(Jaccard similarity coefficient)
1. 杰卡德相似系数
杰卡德相似系数是衡量两个集合A、B 的相似度一种指标,用符号J(A,B)表示。
J(A,B)=|A∩B||A∪B|
J
(
A
,
B
)
=
|
A
∩
B
|
|
A
∪
B
|
2. 杰卡德距离
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度,与杰卡德相似系数相反。杰卡德距离可用如下公式表示:
Jσ(A,B)=1−J(A,B)
J
σ
(
A
,
B
)
=
1
−
J
(
A
,
B
)
9. 相关系数 ( Correlation coefficient )与相关距离(Correlation distance)
1. 相关系数的定义
相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是
[−1,1]
[
−
1
,
1
]
。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
ρXY=Cov(X,Y)D(X)D(Y)√=E((X−E(X))(Y−E(Y)))D(X)D(Y)√
ρ
X
Y
=
C
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
=
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
)
D
(
X
)
D
(
Y
)
2. 相关距离的定义
DXY=1−ρXY D X Y = 1 − ρ X Y
10. 信息熵(Information Entropy)
信息熵并不属于一种相似性度量。信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。
计算给定的样本集X的信息熵的公式:
Entropy(X)=∑ni=1−pilong2pi
E
n
t
r
o
p
y
(
X
)
=
∑
i
=
1
n
−
p
i
l
o
n
g
2
p
i
参数的含义:
n
n
:样本集 的类别数
pi
p
i
:
X
X
中第 类元素出现的频率
信息熵越大表明样本集S分类越分散,信息熵越小则表明样本集X分类越集中。当S中n个分类出现的概率一样大时(都是
1n
1
n
),信息熵取最大值
log2(n)
l
o
g
2
(
n
)
。当X只有一个分类时,信息熵取最小值0。
11. 巴氏距离(Bhattacharyya Distance)
在统计中,Bhattacharyya距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。Bhattacharyya距离和Bhattacharyya系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A. Bhattacharya命名。同时,Bhattacharyya系数可以被用来确定两个样本被认为相对接近的,它是用来测量中的类分类的可分离性。
对于离散概率分布 p和q在同一域 X,巴氏距离被定义为:
其中BC(p,q)是Bhattacharyya系数:
对于连续概率分布,Bhattacharyya系数被定义为:
Bhattacharyya系数是两个统计样本之间的重叠量的近似测量,可以被用于确定被考虑的两个样本的相对接近。