距离
对函数 dist(⋅,⋅) ,若它是一个“距离度量”(distance measure),则需满足一些基本性质 [1] :
非负性(Positive): dist(x,y)≥0
同一性(Reflexive): dist(x,y)=0 当且仅当 x=y
对称性(Symmetric): dist(x,y)=dist(y,x)
直递性(Triangular inequation): dist(x,y)≤dist(x,z)+dist(z,y)
相似性
对函数 sim(⋅,⋅) ,若它是一个归一化“相似性度量”(similarity measure),则有以下一些基本性质 [1] :
sim(x,y)∈[0,1]
sim(x,y)=1 当且仅当 x=y
sim(x,y)=0 当且仅当 x 和 y 完全不一样
通常可以通过距离来定义相似性:
向量范数
定义 如果 V 是数域 K 上的线性空间,且对于 V 的任一向量 χ ,对应一个实值函数 ∥χ∥ ,它满足以下三个条件 [2] :
非负性:当 χ≠0 时 ∥χ∥>0 ;当 χ=0 时 ∥χ∥=0 ;
齐次性: ∥αχ∥=|α|∥χ∥ , χ∈V ;
三角不等式: ∥χ+ζ∥≤∥χ∥+∥ζ∥ , χ,ζ∈V
则称 ∥χ∥ 为 V 上
常用范数
假设向量 χ=(ξ1,ξ2,⋅⋅⋅,ξn) ,则有 [2]
1范数:
2范数(欧式范数):
∞ 范数:
p范数:
从上面定义及特性可以看出,距离、相似性、向量范数在很多种情况下是可以互相转化的。
常用的距离/相似性测度公式
下面按照句法相似性(syntactic similarities)介绍一些距离测度、相似性测度家族 [3]
假设 P=(P1,P2,⋅⋅⋅,Pd),Q=(Q1,Q2,⋅⋅⋅,Qd)- Lp Minkowski family (闵可夫斯基距离测度家族)
- Euclidean L2
dEuc=∑di=1|Pi−Qi|2−−−−−−−−−−−−√ - City block L1
dCB=∑di=1|Pi−Qi| - Minkowski Lp
dMK=(∑di=1|Pi−Qi|p)1p - Chebyshev L∞
dCheb=maxi|Pi−Qi|
- Euclidean L2
- L1 family ( L1 范数测度家族)
- Sorensen
dsor=∑di=1(Pi
- Sorensen
- Lp Minkowski family (闵可夫斯基距离测度家族)

本文介绍了距离、相似性及其度量的基本性质,包括距离度量的非负性、同一性、对称性和直递性,以及相似性的归一化性质。此外,还详细讨论了向量范数的定义和常见范数,如1范数、2范数和无穷范数。文中列举了多种距离和相似性测度公式,如欧几里得距离、余弦相似性和Jaccard相似性,并给出了香农信息熵家族的相关度量。这些概念和度量在机器学习和数据挖掘等领域中有着广泛应用。
最低0.47元/天 解锁文章
4498

被折叠的 条评论
为什么被折叠?



