距离度量(距离函数)

1. 距离度量

X = ( x 1 , x 2 , ⋯   , x n ) X=(x_{1},x_{2},\cdots ,x_{n}) X=(x1,x2,,xn), Y = ( y 1 , y 2 , ⋯   , y n ) Y=(y_{1},y_{2},\cdots ,y_{n}) Y=(y1,y2,,yn) X X X Y Y Y之间的距离或相似性可以通过不同的公式计算得到。

1.1 闵氏距离(闵可夫斯基距离)—— Minkowski Distance

闵氏距离是欧氏空间中的一种测度,闵氏距离的定义式为:

d ( x , y ) : = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p , 其中 p > = 1 d(x,y):=(\sum_{i=1}^{n}{|x_i-y_i|^p})^{\frac{1}{p}}, 其中p>=1 d(x,y):=(i=1nxiyip)p1,其中p>=1

在这里插入图片描述

闵可夫斯基距离公式中:

  • (1) 当 p = 1 p=1 p=1时,即为曼哈顿距离;
  • (2) 当 p = 2 p=2 p=2时,即为欧氏距离;注:只有欧式距离具有平移不变性;
  • (3) 当 p = ∞ p=\infty p=时,即为切比雪夫距离;

切氏距离 = > 欧氏距离 = > 绝对距离 切氏距离=>欧氏距离=>绝对距离 切氏距离=>欧氏距离=>绝对距离

1.1.1 曼哈顿距离 / 市区距离 / 绝对距离(Manhattan Distance)\ 路径

曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所创词汇 ,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。在西洋棋里,车是以曼哈顿距离来计算棋盘格上的距离。如图所示曼哈顿距离红、蓝与黄线分别表示所有曼哈顿距离都拥有一样长度(12),而绿线表示欧几里德距离有 6 × 2 ≈ 8.48 6×\sqrt{2} ≈ 8.48 6×2 8.48的长度。

  • n维空间的曼哈顿距离计算公式为:
    d ( x , y ) : = ∑ i = 1 n ∣ x i − y i ∣ d(x,y):=\sum_{i=1}^{n}{|x_i-y_i|} d(x,y):=i=1nxiyi

1.1.2 欧氏距离 / 欧几里得距离(Euclidean Distance) \ 空间

欧几里得度量(euclidean metric)早期称毕达哥拉斯度量,指在m维空间中两个点之间的真实距离(即欧几里得空间中两点间的直线距离),或向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 相关联的范数称为欧几里得范数。

  • n维空间的欧氏距离计算公式为:
    d ( x , y ) : = ∑ i = 1 n ( x i − y i ) 2 d(x,y):=\sqrt{\sum_{i=1}^{n}{(x_i-y_i)^2}} d(x,y):=i=1n(xiyi)2

1.1.3 切比雪夫距离(Chebyshev distance)\ 国际象棋

切比雪夫距离,或称 L ∞ L\infty L度量,是向量空间中的一种度量。二个点之间的距离定义是其各坐标数值差绝对值的最大值。切比雪夫距离是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量,也是超凸度量(injective metric space)的一种。

  • n维空间的切比雪夫距离定义为:
    d c h e b y s h e v ( x , y ) : = max ⁡ i ∣ x i − y i ∣ = lim ⁡ p − > ∞ ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p d_{chebyshev}(x,y):=\max_{i}{|x_i-y_i|}=\lim_{p->\infty}{(\sum_{i=1}^{n}{|x_i-y_i|^p})^\frac{1}{p}} dchebyshev(x,y):=imaxxiyi=p>lim(i=1nxiyip)p1

对一个网格(例如棋盘),和一点的切比雪夫距离为1的点为此点的Moore型邻居(Moore neighborhood)。在棋盘上,使用的是离散的切比雪夫距离,以任意一个位置为准,和此点切比雪夫距离为r的所有位置也会形成一正方形。

1.1.4 马氏距离(Mahalanobis distance)\ 排除量纲和依存

n n n维矢量 x i x_i xi, x j x_j xj, 是矢量集 { x 1 , x 2 , ⋯   , x m } \{x_1, x_2 ,\cdots, x_m\} {x1,x2,,xm}中的两个矢量,他们马氏距离 d d d定义为:
d 2 ( x i , x j ) = ( x i − x j ) T V − 1 ( x i − x j ) d^{2}(x_i, x_j) = (x_i - x_j)^{T} V^{-1} (x_i - x_j) d2(xi,xj)=(xixj)TV1(xixj)
式中:
V = ∑ i = 1 m ( x i − x ˉ ) ( x i − x ˉ ) T m − 1 V=\frac{ \sum^{m}_{i=1}{ (x_i-\bar x) (x_i-\bar x)^T } }{m-1} V=m1i=1m(xixˉ)(xixˉ)T
x ˉ = ∑ i = 1 m x i m \bar x=\frac{ \sum^{m}_{i=1}{ x_i } }{m} xˉ=mi=1mxi

若x,y是从期望矢量为 μ \mu μ、协方差矩阵 ∑ \sum 的母体G中抽取的两个样本。他们之间的马氏距离为:
d 2 ( x , y ) = ( x − y ) T ∑ − 1 ( x − y ) d^{2}(x,y)=(x-y)^{T} {\sum} ^{-1} (x-y) d2(x,y)=(xy)T1(xy)
将x和y看作两个数据集中的样本时,设C是他们的协方差矩阵,则他们的买时距离为:
d 2 = ( x , y ) = ( x − y ) T C − 1 ( x − y ) d^{2} = (x,y)=(x-y)^{T}C^{-1}(x-y) d2=(x,y)=(xy)TC1(xy)

∑ {\sum} , V V V, C C C为单位矩阵时,马氏距离和欧氏距离是等价的。

马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响(即马氏距离实现了排除量纲和依存),并且是平移不变的;另外,由于 V V V的含义是这个矢量集的样本协方差阵,所以马氏距离对特征的相关性也做了处理。

1.1.5 Camberra距离(Lance距离、Willims距离)

d ( x , y ) = ∑ i = 1 n ∣ x i − y i ∣ ∣ x i + y i ∣ ( x i , y i > = 0 , x i + y i ≠ 0 ) d(x,y)=\sum^{n}_{i=1}{\frac{ |x_i-y_i| }{ |x_i + y_i | }} (x_i,y_i>=0, x_i + y_i \neq 0) d(x,y)=i=1nxi+yixiyi(xi,yi>=0,xi+yi=0)

1.1.6 归一化距离

d ( x , y ) = ∑ i = 1 n ∣ ∣ x − y ∣ ∣ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ d(x,y)=\sum^{n}_{i=1}{\frac{||x-y||}{||x||+||y||}} d(x,y)=i=1n∣∣x∣∣+∣∣y∣∣∣∣xy∣∣

1.2 相似测度

1.2.1 角度相似系数(夹角余弦)

1.2.2 相关系数

1.2.3 指数相似系数

1.3 匹配测度

{ a = ∑ i x i y i b = ∑ i ( 1 − x i ) y i c = ∑ i x i ( 1 − y i ) e = ∑ i ( 1 − y i ) ( 1 − y i ) \begin{cases} a=\sum_{i}{x_iy_i}\\ b=\sum_{i}{(1-x_i)y_i}\\ c=\sum_{i}{x_i(1-y_i)}\\ e=\sum_{i}{(1-y_i)(1-y_i)}\\ \end{cases} a=ixiyib=i(1xi)yic=ixi(1yi)e=i(1yi)(1yi)

1.3.1 Tanimoto测度

s ( x , y ) = a a + b + c = x T y x T x + y T y − x T y s(x,y) = \frac{a}{a+b+c} = \frac{x^Ty}{x^Tx+y^Ty-x^Ty} s(x,y)=a+b+ca=xTx+yTyxTyxTy

向量中6个元素,5个不一样,一个相同,则为 1 5 \frac{1}{5} 51

1.3.2 Rao 测度

s ( x , y ) = a a + b + c + e = x T y n s(x,y) = \frac{a}{a+b+c+e} = \frac{x^Ty}{n} s(x,y)=a+b+c+ea=nxTy

1.3.3 简单匹配系数

m ( x , y ) = a + e n m(x,y) = \frac{a+e}{n} m(x,y)=na+e

1.3.4 Dice 系数

m ( x , y ) = 2 a 2 a + b + c = 2 x T y x T x + y T y m(x,y) = \frac{2a}{2a+b+c} = \frac{2x^Ty}{x^Tx + y^Ty } m(x,y)=2a+b+c2a=xTx+yTy2xTy

1.3.5 Kulzinsky 系数

m ( x , y ) = a b + c = x T y x T x + y T y − 2 x T y m(x,y) = \frac{a}{b+c} = \frac{x^Ty}{x^Tx + y^Ty - 2x^Ty} m(x,y)=b+ca=xTx+yTy2xTyxTy
距离测度是相异测度,其与相似测度可以通过一定的函数关系相互转换。

1.2 加权(标准化欧氏距离)

欧式距离尽管应用较为普遍,但仅适用于样本向量的各个分量度量标准统一的情形。对大部分统计问题来说,由于样本分量的取值对欧氏距离的贡献是相同的,往往不效果一般。特别是当各分量的波动范围量纲差距较大时,会引起各分量对总体的贡献差别较大,甚至某一坐标的贡献几乎可以忽略不计,当各个分量为不同性质的量时,欧式距离的
大小与样本分量的单位有关。
例如某维向量的取值范围为 [0,1] ,而另一维向量的取值范围为 [0,100] ,前者变量的波动范围对距离计算的影响很小,甚至可以忽略不计。在这种情况下,合理的方法应该是对各个坐标分量加权,使变化较大的坐标比变化较小的坐标有较小的权重系数,将样本的不同属性之间的差异量化到同一个区间。在某些特殊应用时,也可以对样本分量的不同属性分别赋予不同的权重,从而取得更理想的计算效果。

标准化欧氏距离是针对简单欧氏距离的缺点而提出的一种改进方案,当向量之间的各维度的尺度差别较大时,使用简单欧氏距离使得各向量对最终分类结果产生较大的影响。标准化欧氏距离的思想是,将数据各维分量的分布进行归一化处理,将数据的各个分量均标准化到均值、方差。假设样本集 S 的均值为 m ,标准差为 sd ,则将特征 S 标准化为均值为零方差为 1的变量。因此,两个归一化后的 n n n维向量 A ( x 1 , x 2 , … , x n ) A(x_1, x_2, … ,x_n ) A(x1,x2,,xn) B ( y 1 , y 2 , … , y n ) B(y_1, y_2, … , y_n) B(y1,y2,,yn)间的标准化欧氏距离可以表示为:
d ( x , y ) : = ∑ i = 1 n ( y i − x i ) 2 s i d(x,y):=\sqrt{\sum_{i=1}^{n}{\frac{(y_i-x_i)^2}{s_i}}} d(x,y):=i=1nsi(yixi)2

1.3 向量差距(夹角余弦距离)

1.4 分布的混乱程度或分散程度(熵)

熵的基本介绍及相关公式
E n t r o p y = ∑ − p i log ⁡ ( p i ) p i = p r o b a b i l i t y   o f   c l a s s   i Entropy=\sum{-p_i\log(p_i)} \\p_i=probability\ of\ class\ i Entropy=pilog(pi)pi=probability of class i
e.g. : − 1 2 log ⁡ 1 2 × 2 = − log ⁡ 1 2 = 1 -\frac{1}{2} \log{\frac{1}{2}} \times 2 =-\log{\frac{1}{2}}=1 21log21×2=log21=1

信息增益: I G = E ( p a r e n t ) − ∑ w i E ( c h i l d ) IG=E(parent)-\sum{w_{i}E(child)} IG=E(parent)wiE(child)

w i w_i wi是子节点相对父节点的大小;

1.信息熵

H ( X ) = − ∑ i n p ( x i ) log ⁡ p ( x i ) = ∑ i P ( X i ) l o g 2 1 P ( X i ) H(X)=-\sum_{i}^{n}{p(x_i)\log{p(x_i)}}=\sum_{i}{P(X_{i})log_{2}{\frac{1}{P(X_i)}}} H(X)=inp(xi)logp(xi)=iP(Xi)log2P(Xi)1
可转换为:
H ( X ) = − ∑ i n p ( X i ) log ⁡ b p ( X i ) = ∑ i n p ( X i ) log ⁡ 2 1 p ( X i ) = E ( log ⁡ 2 ( 1 P ( X i ) ) ) H(X)=-\sum_{i}^{n} { p(X_i) \log_{b} { p(X_i) } }=\sum_{i}^{n}{p(X_i)\log_{2} { \frac{1}{p(X_i)} }} = E(\log_2(\frac{1}{P(X_i)})) H(X)=inp(Xi)logbp(Xi)=inp(Xi)log2p(Xi)1=E(log2(P(Xi)1))
表示2的多少次幂等于 P ( X i ) P(X_i) P(Xi)分之一: 2 ? = 1 P ( X i ) 2^{?}=\frac{1}{P(X_i)} 2?=P(Xi)1
是转换到二进制下的表示复杂度
期望的加权平衡如图[图1]所示。

l o g 2 1 p ( X i ) = > b i t ( b i n a r y   d i g i t ) log_{2} { \frac{1}{p(X_i)} } => bit (binary \ digit) log2p(Xi)1=>bit(binary digit)
l o g e 1 p ( X i ) = > n a t ( n a t u r a l   u n i t ) log_{e} { \frac{1}{p(X_i)} } => nat (natural \ unit) logep(Xi)1=>nat(natural unit)
l o g 10 1 p ( X i ) = > d i t ( d e c i m a l   d i g i t ) log_{10} { \frac{1}{p(X_i)} } => dit (decimal \ digit) log10p(Xi)1=>dit(decimal digit)

2.联合熵

H ( X , Y ) = − ∑ x ∑ y p ( x , y ) log ⁡ p ( x , y ) H(X,Y)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(x,y)}}} H(X,Y)=xyp(x,y)logp(x,y)

3.条件熵

H ( Y ∣ X ) = − ∑ x ∑ y p ( x , y ) log ⁡ p ( y ∣ x ) H(Y|X)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(y|x)}}} H(YX)=xyp(x,y)logp(yx)

4.互信熵:(信息增益)

I ( X , Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X,Y)=\sum_{x,y}{p(x,y)\log{ \frac{ p(x,y) } { p(x)p(y) } }} I(X,Y)=x,yp(x,y)logp(x)p(y)p(x,y)

5.交叉熵

在这里插入图片描述

常用于分类问题的损失函数。

L ( p , q ) = − ∑ i p ( x i ) log ⁡ q ( x i ) = ∑ i p ( x i ) ( − log ⁡ q ( x i ) ) = ∑ i p ( x i ) log ⁡ 1 q ( x i ) > ∑ i p ( x i ) log ⁡ 1 p ( x i ) L(p,q)=-\sum_{i}{ p(x_i) \log{q(x_i)} }=\sum_{i}{ p(x_i) (-\log{q(x_i)}) }=\sum_{i}{ p(x_i) \log{\frac{1}{q(x_i)}} }>\sum_{i}{ p(x_i) \log{\frac{1}{p(x_i)}} } L(p,q)=ip(xi)logq(xi)=ip(xi)(logq(xi))=ip(xi)logq(xi)1>ip(xi)logp(xi)1

最优编码长度;
q ( x i ) q(x_i) q(xi)信息量;平均编码长度;

(1) p ( x i ) > q ( x i ) ↓ p(x_i) > q(x_i)\downarrow p(xi)>q(xi) ( 1 q ( x i ) ) ↑ (\frac{1}{q(x_i)})\uparrow (q(xi)1) 平均编码长度增加。
(2) p ( x i ) < q ( x i ) ↑ p(x_i) < q(x_i)\uparrow p(xi)<q(xi) ( 1 q ( x i ) ) ↓ (\frac{1}{q(x_i)})\downarrow (q(xi)1) 平均编码长度减少。

编码长度边长会导致平均的编码长度增加。

反向交叉熵(reverse cross entropy):
L ( q , p ) = − ∑ i q ( x i ) log ⁡ p ( x i ) L(q,p)=-\sum_{i}{ q(x_i) \log{p(x_i)} } L(q,p)=iq(xi)logp(xi)

真实分布 p p p中不存在 p ( x i ) = 0 p(x_i)=0 p(xi)=0 1 p ( x i ) → ∞ \frac{1}{p(x_i)}\rightarrow\infty p(xi)1

衡量分布的差异最小化交叉熵,让它尽可能地接近 p p p的熵。
预测分布 q 接近 → 真实分布 p 预测分布q\underrightarrow{ 接近 }真实分布p 预测分布q 接近真实分布p

6.相对熵:(KL离散度)

D K L ( p ∣ ∣ q ) = ∑ i p ( x i ) log ⁡ p ( x i ) q ( x i ) D_{KL}(p||q)=\sum_{i}{p(x_i)\log{ \frac{ p(x_i) } { q(x_i) } }} DKL(p∣∣q)=ip(xi)logq(xi)p(xi)

各类熵的关系及性质

基于概率分布的不确定性都能用熵来衡量

随机性(stochastic):结果是可知集合内样本;
不确定性(uncertainly):结果可能是未知的;

随机变量可能出现的結果是否知道

1.5 集合近似度(杰卡德距离)

1.6 变量相关性(皮尔逊系数)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值