空间、距离和相似度

最新推荐文章于 2024-07-29 03:06:07 发布

咖啡红蘑菇

最新推荐文章于 2024-07-29 03:06:07 发布

阅读量3k

点赞数 1

分类专栏： DeepLearning 文章标签：空间距离度量相似度度量

本文链接：https://blog.csdn.net/weixin_38075257/article/details/89386511

版权

1 篇文章

订阅专栏

公式

$P=(x_1,x_2,......x_n), Q=(y_1,y_2,......y_n) \quad P\isin \mathbb{R^n} , Q\isin \mathbb{R^n}$

$distance(P,Q)=(\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac{1}{p}}$
优点：直观
缺点：与数据的分布无关，具有一定的局限性
- 如，x方向上的幅值远大于y，会过于放大x维度的作用
  - 解决：（1）数据各个维度 $x_1,x_2,......x_n$ 不相关，但幅度相差大，采用z-transform，即减均值除方差
  - （2）数据维度互相之间相关(如身高体重)，用马氏距离

闵可夫斯基距离中的 $p = 2$ ，定义在欧几里得空间里。

$distance(P,Q)=(\sum_{i=1}^{n}|x_i-y_i|^2)^{\frac{1}{2}}=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$

闵可夫斯基距离中的 $p = 1$ ，又称 $L_1-$ 距离/街道距离。

$\sum_{i=1}^{n}|x_i-y_i|$

闵可夫斯基距离中的 $p=\infty$ ，国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子 $x_1,y_1)$ 走到格子 $x_2,y_2)$ 最少需要多少步

$distance(P,Q)=\max_{i=1}^n|x_i-y_i|$

原理：利用cholesky分解原理消除维度之间的相关性和尺度不同的性质。假设样本点(列向量)之间的协方差矩阵为 $\sum$ ,通过cholesky分解(因为协方差矩阵对称且正定)可以得到 $\sum=LL^T$ 。
通过对单个样本点做如下处理： $z=L^{-1}(x-u)$ ，处理之后的欧几里得距离就是原样本的马氏距离。
假设有m个样本，记为 $x_1,x_2,...x_m$ ，协方差记为 $\sum$ (对称正定)，均值向量记为 $u$ ，则样本x到u的马氏距离的平方为：

$(distance(P,Q))^2=z^Tz=(L^{-1}(x-u))^T(L^{-1}(x-u))=(x-u)^T(LL^T)^{-1}(x-u)=(x-u)^T{\sum}^{-1}(x-u)$
样本 $x_i$ 和样本 $x_j$ 的距离为：

$(distance(x_i,x_j))^2=(x_i-x_j)^T{\sum}^{-1}(x_i-x_j)$
若协方差矩阵为单位阵【欧式距离】

$distance(x_i,x_j))^2=(x_i-x_j)^T(x_i-x_j)$
若协方差矩阵为对角阵【标准欧式距离】
优点：排除量纲和变量相关性的干扰

编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。编辑距离求的是最少编辑次数。

几何中夹角余弦可用来衡量两个向量方向(夹角)的差异，机器学习中借用这一概念来衡量样本向量之间的差异，与向量的幅值无关，只与向量方向相关。
两样本 $x=(x_1,x_2,......x_n), y=(y_1,y_2,......y_n) \quad x\isin \mathbb{R^n} ,y\isin \mathbb{R^n}$ 的余弦相似度为

$CosSim(x,y)=\frac{\sum_ix_iy_i}{\sqrt{\sum_i(x_i)^2}\sqrt{\sum_i(y_i)^2}}=\frac{x^Ty}{||x||||y||}$
应用：文档相似度(TF-IDF)和图片相似度(histogram)，词向量计算词语相似度
受到向量平移的影响，如将x平移到x+1

皮尔逊相关系数具有平移不变性和尺度不变性质，度量两个向量（维度）的相关性。
对于两个样本 $x, y$ 而言，则度量了样本点分布的相关性。

$Corr(x,y)=\frac{\sum_i(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum_i(x_i-\bar x)^2}\sqrt{\sum_i(y_i-\bar y)^2}}=\frac{<x-\bar x, y-\bar y>}{||x-\bar x||||y_i-\bar y||}=CosSim(x-\bar x)(y-\bar y)$
适用范围：(1)两个变量之间是线性关系，且连续；(2)两个变量的总体是正态分布，或接近正态的单峰分布;(3)两个变量的观测值是成对的，每对观测值之间相互独立。
应用：推荐系统中根据为某一用户查找喜好相似的用户，进而推荐。优点：可以不受每个用户评分标准和观看数量不一样的影响。

在一些情况下，某些特定的值相等并不能代表什么(对比汉明距离)。比如，用 1 表示用户看过该电影，用 0 表示用户没有看过，那么用户看电影的的信息就可用 0,1 表示成一个序列。电影基数非常庞大，用户看过的电影只占其中非常小的一部分，如果两个用户都没有看过某一部电影（两个都是 0），并不能说明两者相似。如果两个用户都看过某一部电影（序列中都是 1），则说明用户有很大的相似度。在这个例子中，序列中等于 1 所占的权重应该远远大于 0 的权重，这就引出下面要说的杰卡德相似系数。
杰卡德相似度用于衡量两个集合A,B的相似度

$J(A,B)=\frac{A \cup B}{A\cap B}$
应用：
- 推荐系统中用 M11 表示两个用户都看过的电影数目，M10 表示用户 A 看过，用户 B 没看过的电影数目，M01 表示用户 A 没看过，用户 B 看过的电影数目，M00 表示两个用户都没有看过的电影数目。Jaccard 相似性系数可以表示为：
  
  $\frac{M11}{M11+M10+M01}$
- 分类数据点的距离。如果分类数值点是用树形结构来表示的，它们的相似性可以用相同路径的长度来表示，比如，“/product/spot/ballgame/basketball” 离“product/spot/ballgame/soccer/shoes” 的距离小于到 “/product/luxury/handbags” 的距离，以为前者相同父节点路径更长。

自信息:事件$ {X=x} $所携带的信息量，与频率成反比，独立可加。

$I (X = x) = - l o g (p (x))$
香农熵(信息熵):事件自信息只是处理单个输出，用香农熵(Shannon entropy)来衡量整个概率分布P的不确定性总量进行量化,，一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量(衡量分布所携带的信息量):

$H(Q)=-E_{x\sim P}[logQ(x)]=-\sum_iq(x)log(q(x))$