常见相似度计算方法

斐硕人

已于 2022-06-07 14:59:08 修改

阅读量913

点赞数

分类专栏：僧旅文章标签：概率论机器学习线性代数

于 2022-06-06 23:07:09 首次发布

本文链接：https://blog.csdn.net/feishuoren/article/details/125154229

版权

34 篇文章 3 订阅

订阅专栏

什么是相似度

两个事物的相似程度

用向量表示事物，通常有三种方式计算其相似度：

距离
夹角
相关系数

闵可夫斯基距离(Minkowski Distance) $(\sum_{i=1}^n\left|{x_i-y_i}\right|^p)^{1/p}$
- $p = 1$ 曼哈顿距离(Manhattan Distance) $\sum_{i=1}^n{\left|x_i-y_i\right|}$
- $p = 2$ 欧氏距离(Euclidean Distance) $\sqrt{\sum_{i=1}^n{(x_i-y_i)^2}}$
- $p=\infty$ 切比雪夫距离(Chebyshev Distance) $max(\left|x_i-y_i\right|)$

缺点：

马氏距离(Mahalanobis Distance)
有M个样本向量 $X_1$ ~ $X_m$ ，协方差矩阵记为S，均值记为向量μ。
$dist(X_i,Y_j) = \sqrt{(X_i-X_j)^TS^{-1}(X_i-X_j)}$
- $S = I$ 欧氏距离(Euclidean Distance)，协方差矩阵是单位矩阵（各个样本向量之间独立同分布）
- $S=\Lambda$ 标准化欧氏距离(Standardized Euclidean distance)，协方差矩阵是对角矩阵
兰氏距离(Lance Williams Distance)
$\sum_{i=1}^n{\frac{\left|{x_i-y_i}\right|}{x_i+y_i}}$

点积（投影）
可以反映一个向量在另一个向量上投影的长度（标量）
$A\cdot B = \left|A\right|\left|B\right|cos\theta = \left|B\right|(\left|A\right|cos\theta)$
余弦相似度(Cosine Similarity)
两个向量之间的夹角大小
$cos(\theta)=\frac{A \cdot B}{\left|A\right| \left|B\right|}$
Tanimoto系数 (Tanimoto Coefficient)（广义Jaccard相似系数）
$\frac{A \cdot B}{{\left||A\right||^2} + {\left||B\right||^2} -A \cdot B}$

皮尔逊相关系数 (Pearson Correlation Coefficient)
消除量纲的影响
$p(x,y)=\frac{\sum{x_iy_i}-n\bar{xy}}{(n-1)S_xS_y} = \frac{n\sum{x_iy_i}-\sum{x_i}\sum{y_i}}{\sqrt{n\sum{x_i^2}-(\sum{x_i})^2}\sqrt{n\sum{y_i^2}-(\sum{y_i})^2}}$
当两个向量均值都为0时，皮尔逊相对系数等于余弦相似性。

事物使用集合表示时，用交并补计算其相似度

汉明距离(Hamming Distance)(信号距离)
将其中一个字符串变为另外一个字符串所需要的最小替换次数。
杰卡德相似系数 (Jaccard similarity coefficient)
两个集合的交集元素在并集中所占的比例
$\frac{ \left|A \cap B \right| } { \left|A \cup B \right|}$
杰卡德距离(Jaccard distance)
用两个集合中不同元素占所有元素的比例，杰卡德相似系数的补。
$J_{\delta}(A,B) = 1- J(A,B) = \frac{ \left|A \cup B \right| - \left|A \cap B \right| } {\left|A \cup B \right|}$

KL散度(Kullback-Leibler Divergence)
相对熵，表示两个随机分布之间的相似性。
$D_{KL}(p||q) = \sum_{i=1}^N{p(x_i)(log\frac{p(x_i)}{q(x_i)})}$
KL散度大于等于0，当p=q时等于0；KL散度不满足对称性。