距离度量(距离函数)

深海静默

已于 2024-05-27 16:04:55 修改

阅读量791

点赞数

文章标签：机器学习人工智能

于 2023-08-11 06:51:29 首次发布

本文链接：https://blog.csdn.net/weixin_37805181/article/details/132137642

版权

熵的基本介绍及相关公式

1. 距离度量

1. 距离度量

设 $X=(x_{1},x_{2},\cdots ,x_{n})$ , $Y=(y_{1},y_{2},\cdots ,y_{n})$ ， $X$ 与 $Y$ 之间的距离或相似性可以通过不同的公式计算得到。

1.1 闵氏距离（闵可夫斯基距离）—— Minkowski Distance

闵氏距离是欧氏空间中的一种测度，闵氏距离的定义式为：

$d(x,y):=(\sum_{i=1}^{n}{|x_i-y_i|^p})^{\frac{1}{p}}, 其中p>=1$

在这里插入图片描述

闵可夫斯基距离公式中：

(1) 当 $p = 1$ 时，即为曼哈顿距离；
(2) 当 $p = 2$ 时，即为欧氏距离；注：只有欧式距离具有平移不变性；
(3) 当 $p=\infty$ 时，即为切比雪夫距离；

$切氏距离 => 欧氏距离 => 绝对距离$

1.1.1 曼哈顿距离 / 市区距离 / 绝对距离（Manhattan Distance）\ 路径

曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所创词汇，是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和。在西洋棋里，车是以曼哈顿距离来计算棋盘格上的距离。如图所示曼哈顿距离红、蓝与黄线分别表示所有曼哈顿距离都拥有一样长度(12)，而绿线表示欧几里德距离有 $6×\sqrt{2} ≈ 8.48$ 的长度。

n维空间的曼哈顿距离计算公式为：
$d(x,y):=\sum_{i=1}^{n}{|x_i-y_i|}$

1.1.2 欧氏距离 / 欧几里得距离（Euclidean Distance） \ 空间

欧几里得度量（euclidean metric）早期称毕达哥拉斯度量，指在m维空间中两个点之间的真实距离(即欧几里得空间中两点间的直线距离)，或向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。相关联的范数称为欧几里得范数。

n维空间的欧氏距离计算公式为：
$d(x,y):=\sqrt{\sum_{i=1}^{n}{(x_i-y_i)^2}}$

1.1.3 切比雪夫距离（Chebyshev distance）\ 国际象棋

切比雪夫距离，或称 $L\infty$ 度量，是向量空间中的一种度量。二个点之间的距离定义是其各坐标数值差绝对值的最大值。切比雪夫距离是由一致范数（uniform norm）（或称为上确界范数）所衍生的度量，也是超凸度量（injective metric space）的一种。

n维空间的切比雪夫距离定义为：
$d_{chebyshev}(x,y):=\max_{i}{|x_i-y_i|}=\lim_{p->\infty}{(\sum_{i=1}^{n}{|x_i-y_i|^p})^\frac{1}{p}}$

对一个网格（例如棋盘），和一点的切比雪夫距离为1的点为此点的Moore型邻居（Moore neighborhood）。在棋盘上，使用的是离散的切比雪夫距离，以任意一个位置为准，和此点切比雪夫距离为r的所有位置也会形成一正方形。

1.1.4 马氏距离（Mahalanobis distance）\ 排除量纲和依存

设 $n$ 维矢量 $x_i$ , $x_j$ , 是矢量集 $\{x_1, x_2 ,\cdots, x_m\}$ 中的两个矢量，他们马氏距离 $d$ 定义为：
$d^{2}(x_i, x_j) = (x_i - x_j)^{T} V^{-1} (x_i - x_j)$
式中：
$V=\frac{ \sum^{m}_{i=1}{ (x_i-\bar x) (x_i-\bar x)^T } }{m-1}$
$\bar x=\frac{ \sum^{m}_{i=1}{ x_i } }{m}$

若x,y是从期望矢量为 $\mu$ 、协方差矩阵 $\sum$ 的母体G中抽取的两个样本。他们之间的马氏距离为：
$d^{2}(x,y)=(x-y)^{T} {\sum} ^{-1} (x-y)$
将x和y看作两个数据集中的样本时，设C是他们的协方差矩阵，则他们的买时距离为：
$d^{2} = (x,y)=(x-y)^{T}C^{-1}(x-y)$

当 ${\sum}$ , $V$ , $C$ 为单位矩阵时，马氏距离和欧氏距离是等价的。

马氏距离对一切非奇异线性变换都是不变的，这说明它不受特征量纲选择的影响（即马氏距离实现了排除量纲和依存），并且是平移不变的；另外，由于 $V$ 的含义是这个矢量集的样本协方差阵，所以马氏距离对特征的相关性也做了处理。

1.1.5 Camberra距离（Lance距离、Willims距离）

$d(x,y)=\sum^{n}_{i=1}{\frac{ |x_i-y_i| }{ |x_i + y_i | }} (x_i,y_i>=0, x_i + y_i \neq 0)$

1.1.6 归一化距离

$d(x,y)=\sum^{n}_{i=1}{\frac{||x-y||}{||x||+||y||}}$

1.2 相似测度

1.2.1 角度相似系数（夹角余弦）

1.2.2 相关系数

1.2.3 指数相似系数

1.3 匹配测度

$\begin{cases} a=\sum_{i}{x_iy_i}\\ b=\sum_{i}{(1-x_i)y_i}\\ c=\sum_{i}{x_i(1-y_i)}\\ e=\sum_{i}{(1-y_i)(1-y_i)}\\ \end{cases}$

1.3.1 Tanimoto测度

$\frac{a}{a+b+c} = \frac{x^Ty}{x^Tx+y^Ty-x^Ty}$

向量中6个元素，5个不一样，一个相同，则为 $\frac{1}{5}$ 。

1.3.2 Rao 测度

$\frac{a}{a+b+c+e} = \frac{x^Ty}{n}$

1.3.3 简单匹配系数

$\frac{a+e}{n}$

1.3.4 Dice 系数

$\frac{2a}{2a+b+c} = \frac{2x^Ty}{x^Tx + y^Ty }$

1.3.5 Kulzinsky 系数

$\frac{a}{b+c} = \frac{x^Ty}{x^Tx + y^Ty - 2x^Ty}$
距离测度是相异测度，其与相似测度可以通过一定的函数关系相互转换。

1.2 加权（标准化欧氏距离）

欧式距离尽管应用较为普遍，但仅适用于样本向量的各个分量度量标准统一的情形。对大部分统计问题来说，由于样本分量的取值对欧氏距离的贡献是相同的，往往不效果一般。特别是当各分量的波动范围量纲差距较大时，会引起各分量对总体的贡献差别较大，甚至某一坐标的贡献几乎可以忽略不计，当各个分量为不同性质的量时，欧式距离的
大小与样本分量的单位有关。
例如某维向量的取值范围为 [0,1] ，而另一维向量的取值范围为 [0,100] ，前者变量的波动范围对距离计算的影响很小，甚至可以忽略不计。在这种情况下，合理的方法应该是对各个坐标分量加权，使变化较大的坐标比变化较小的坐标有较小的权重系数，将样本的不同属性之间的差异量化到同一个区间。在某些特殊应用时，也可以对样本分量的不同属性分别赋予不同的权重，从而取得更理想的计算效果。

标准化欧氏距离是针对简单欧氏距离的缺点而提出的一种改进方案，当向量之间的各维度的尺度差别较大时，使用简单欧氏距离使得各向量对最终分类结果产生较大的影响。标准化欧氏距离的思想是，将数据各维分量的分布进行归一化处理，将数据的各个分量均标准化到均值、方差。假设样本集 S 的均值为 m ，标准差为 sd ，则将特征 S 标准化为均值为零方差为 1的变量。因此，两个归一化后的 $n$ 维向量 $A(x_1, x_2, … ,x_n )$ 、 $B(y_1, y_2, … , y_n)$ 间的标准化欧氏距离可以表示为：
$d(x,y):=\sqrt{\sum_{i=1}^{n}{\frac{(y_i-x_i)^2}{s_i}}}$

1.3 向量差距（夹角余弦距离）

1.4 分布的混乱程度或分散程度（熵）

熵的基本介绍及相关公式
$Entropy=\sum{-p_i\log(p_i)} \\p_i=probability\ of\ class\ i$
e.g. : $-\frac{1}{2} \log{\frac{1}{2}} \times 2 =-\log{\frac{1}{2}}=1$

信息增益： $IG=E(parent)-\sum{w_{i}E(child)}$

$w_i$ 是子节点相对父节点的大小；

1.信息熵

$H(X)=-\sum_{i}^{n}{p(x_i)\log{p(x_i)}}=\sum_{i}{P(X_{i})log_{2}{\frac{1}{P(X_i)}}}$
可转换为：
$H(X)=-\sum_{i}^{n} { p(X_i) \log_{b} { p(X_i) } }=\sum_{i}^{n}{p(X_i)\log_{2} { \frac{1}{p(X_i)} }} = E(\log_2(\frac{1}{P(X_i)}))$
表示2的多少次幂等于 $P(X_i)$ 分之一： $2^{?}=\frac{1}{P(X_i)}$ 。
是转换到二进制下的表示复杂度
期望的加权平衡如图[图1]所示。

$log_{2} { \frac{1}{p(X_i)} } => bit (binary \ digit)$
$log_{e} { \frac{1}{p(X_i)} } => nat (natural \ unit)$
$log_{10} { \frac{1}{p(X_i)} } => dit (decimal \ digit)$

2.联合熵

$H(X,Y)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(x,y)}}}$

3.条件熵

$H(Y|X)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(y|x)}}}$

4.互信熵：（信息增益）

$I(X,Y)=\sum_{x,y}{p(x,y)\log{ \frac{ p(x,y) } { p(x)p(y) } }}$

5.交叉熵

在这里插入图片描述

常用于分类问题的损失函数。

$L(p,q)=-\sum_{i}{ p(x_i) \log{q(x_i)} }=\sum_{i}{ p(x_i) (-\log{q(x_i)}) }=\sum_{i}{ p(x_i) \log{\frac{1}{q(x_i)}} }>\sum_{i}{ p(x_i) \log{\frac{1}{p(x_i)}} }$

最优编码长度；
$q(x_i)$ 信息量；平均编码长度；

(1) $p(x_i) > q(x_i)\downarrow$ 则 $(\frac{1}{q(x_i)})\uparrow$ 平均编码长度增加。
(2) $p(x_i) < q(x_i)\uparrow$ 则 $(\frac{1}{q(x_i)})\downarrow$ 平均编码长度减少。

编码长度边长会导致平均的编码长度增加。

反向交叉熵(reverse cross entropy)：
$L(q,p)=-\sum_{i}{ q(x_i) \log{p(x_i)} }$

真实分布 $p$ 中不存在 $p(x_i)=0$ 、 $\frac{1}{p(x_i)}\rightarrow\infty$ 。

衡量分布的差异最小化交叉熵，让它尽可能地接近 $p$ 的熵。
$预测分布q\underrightarrow{ 接近 }真实分布p$

6.相对熵：（KL离散度）

$D_{KL}(p||q)=\sum_{i}{p(x_i)\log{ \frac{ p(x_i) } { q(x_i) } }}$

各类熵的关系及性质

基于概率分布的不确定性都能用熵来衡量

随机性（stochastic）：结果是可知集合内样本；
不确定性（uncertainly）：结果可能是未知的；

随机变量可能出现的結果是否知道

1.5 集合近似度（杰卡德距离）

1.6 变量相关性（皮尔逊系数）

深海静默

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
距离度量(距离函数)

2.联合熵H(X,Y)=−∑x∑yp(x,y)log⁡p(x,y)H(X,Y)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(x,y)}}}H(X,Y)=−x∑y∑p(x,y)logp(x,y)3.条件熵H(Y∣X)=−∑x∑yp(x,y)log⁡p(y∣x)H(Y|X)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(y|x)}}}H(Y∣X)=−x∑y∑p(x,y)logp(y∣x)4.互信熵：（信息增益）I(X,Y)=∑x,yp(x,y)log⁡
复制链接

扫一扫