相似度度量方法整理

桂花鲸

已于 2024-01-26 11:07:35 修改

阅读量840

点赞数 28

文章标签：算法

于 2024-01-24 16:29:56 首次发布

本文链接：https://blog.csdn.net/qq_43432661/article/details/135825214

版权

本文详细介绍了在Python中如何使用各种度量方法（如闵可夫斯基距离、欧氏距离、曼哈顿距离、切比雪夫距离、马哈拉诺比斯距离、余弦相似度、皮尔逊相关系数以及Jaccard相似度）来计算数值型数据之间的相似度。提供了相应的函数示例，展示了如何在实际项目中应用这些技术。

摘要由CSDN通过智能技术生成

相似度度量方法,相关实现代码使用python

导包

import numpy as np
from scipy.spatial.distance import euclidean
from sklearn.metrics.pairwise import euclidean_distances

一、距离度量方法：

这类方法基于距离的概念来衡量对象之间的相似度。距离度量方法通常适用于数值型数据，通过计算距离来衡量对象之间的相似程度，距离越小表示相似度越高。

给定样本集合X，X是m维实数向量空间 $R^m$ 中点的集合，其中 $x_i,x_j\in X,x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T$ 。

1.闵可夫斯距离(Minkowski Distance):

样本 $x_i$ 与 $x_j$ 的闵可夫斯距离定义为:

$d_{ij}=(\sum_{k=1}^m{|x_{ki}-x_{kj}|}^p)^{\frac{1}{p}}$
这里 $p\ge1$ 。

(1).欧几里得距离(Euclidean Distance):

当p=2时称为欧几里得距离，简称欧氏距离,计算两个向量之间的欧氏距离，即它们之间的直线距离，欧氏距离的定义为：
$d_{ij}=(\sum_{k=1}^m{|x_{ki}-x_{kj}|}^2)^{\frac{1}{2}}$

计算两个向量之间的欧式距离

# 计算两个向量之间的欧式距离
def eucliDist(A,B):
    return np.sqrt(np.sum(np.power((A - B), 2)))

#numpy库计算欧式距离
def eucliDist_np(A,B):
	return np.linalg.norm(A-B)

#scipy库计算欧式距离
def eucliDist_sp(A,B):
	return euclidean(A,B)

#sklearn库计算欧式距离
def eucliDist_sl(A,B):
    return euclidean_distances(A,B)

计算二维矩阵与一维向量之间的欧式距离，需要矩阵大小与向量大小匹配

#计算向量与矩阵的列向量之间的欧式距离
def calculate_col_distances(matrix, vector):
 	"""
    Args:
        matrix: shape为m*n
        vector: 长度为m
    Returns:
        向量与矩阵的列向量之间的欧式距离,结果长度为n
    """
    diff = matrix.reshape((-1,len(vector))) - vector # 计算差向量
    distances = np.linalg.norm(diff, axis=0)  # 计算范数
    return distances

#计算向量与矩阵的行向量之间的欧式距离
def calculate_row_distances(matrix, vector):
 	"""
    Args:
        matrix: shape为m*n
        vector: 长度为n
    Returns:
        向量与矩阵的列向量之间的欧式距离,结果长度为m
    """
    diff = matrix- vector # 计算差向量
    distances = np.linalg.norm(diff, axis=0)  # 计算范数
    return distances

(2).曼哈顿距离（Manhattan Distance):

当p=1时称为曼哈顿距离。计算两个向量之间的曼哈顿距离，即它们之间的城市街区距离（各个维度的差值的绝对值之和）。曼哈顿距离的定义为：
$d_{ij}=\sum_{k=1}^m{|x_{ki}-x_{kj}|}$

(3).切比雪夫距离(Chebyshev Distance):

当p= $\infty$ 时称为切比雪夫距离，取各个坐标数值差的绝对值的最大值，切比雪夫距离的定义为:
$d_{ij}=\max_k{|x_{ki}-x_{kj}|}$

2.马哈拉诺比斯距离(Mahalanobis Distance):

马哈拉诺比斯距离，简称马氏距离，考虑各个分量(特征)之间的相关性并与各个分量的尺度无关。马哈拉诺比斯距离越大相似度越小，距离越小相似度越大。

给定一个样本集合 $X，X =[x_{ij}]_{m×n}$ ，其协方差矩阵记作 S。样本 $x_i$ 与样本 $x_j$ 之间的马哈拉诺比斯距离 $d_{ij}$ 定义为:

$d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}}$
其中
$x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T, x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T$

当S为单位矩阵时，即样本数据的各个分量互相独立且各个分量的方差为1时，由马氏距离的定义可知马氏距离就是欧氏距离，所以马氏距离是欧氏距离的推广。

二、内积度量方法：

这类方法基于向量之间的内积来衡量相似度。

余弦相似度（Cosine Similarity）：

计算两个向量之间的夹角余弦值，用于衡量它们的方向相似性，余弦相似度越接近1表示相似度越高,越接近0相似度越低。对于样本 $x_i$ 与样本 $x_j$ 之间的夹角余弦定义为:
$s_{ij}=\frac{\sum_{k=1}^m{x_{ki}}x_{kj}}{[\sum_{k=1}^m{x^2_{ki}}\sum_{k=1}^m{x^2_{kj}}]^{\frac{1}{2}}}$
或
$s_{ij}=\frac{x_i\cdot x_j} { ||x_i|| * ||x_j||}$
其中 $x_i\cdot x_j$ 表示向量的内积， $∣∣ x ∣∣$ 和 $∣∣ y ∣∣$ 分别表示向量的范数。

三、相关系数方法

这类方法基于统计的相关性概念来衡量对象之间的相似度。

皮尔逊相关系数（Pearson Correlation Coefficient）：

用于衡量两个变量之间的线性相关程度，相关系数的绝对值越接近于1，表示样本越相似，越接近于0，表示样本越不相似。对于两个m维向量 $x_i$ 与 $x_j$ ，相关系数定义为:

$r_{ij}=\frac{\sum_{k=1}^m{(x_{ki}-\bar{x}_i)}(x_{kj}-\bar{x}_j)}{[\sum_{k=1}^m{(x_{ki}-\bar{x}_i)^2}\sum_{k=1}^m{(x_{kj}-\bar{x}_j)^2}]^{\frac{1}{2}}}$
其中
$\bar{x}_i=\frac1m\sum_{k=1}^m{x_{ki}},\bar{x}_j=\frac1m\sum_{k=1}^m{x_{kj}}$
或：
$r_{ij}=\frac{cov(x_i,x_j)}{std(x_i) * std(x_j)}$
其中
$cov(x_i,x_j)$ 表示 $x_i$ 和 $x_j$ 的协方差， $std(x_i)$ 和 $std(x_j)$ 分别表示 $x_i$ 和 $x_j$ 的标准差。