几个常用的计算两个概率分布之间距离的方法以及python实现

1. 欧氏距离(Euclidean Distance)


欧氏距离源自欧氏空间中两点间的直线距离,是最常见的一种距离计算方式。计算公式是两个矩阵中对应元素之差的平方和再开方。

python实现:

import numpy as np

x = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])
y = np.array([[5, 6, 7, 8],[1, 2, 3, 4]])

euclidean_distance=np.sqrt(np.sum(np.square(x-y)))

print(euclidean_distance)

 

2. 曼哈顿距离(Manhattan Distance)


曼哈顿距离又称为“城市街区距离”或者“出租车距离”,由十九世纪的赫尔曼·闵可夫斯基所创词汇 ,用以计算两个点在标准坐标系上的绝对轴距总和。

上图中蓝色的线是欧氏距离,红色、蓝色和黄色的线是曼哈顿距离。
曼哈顿距离的计算公式是两个矩阵中对应元素差的绝对值之和。

python实现:

import numpy as np

x = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])
y = np.array([[5, 6, 7, 8],[1, 2, 3, 4]])

manhattan_distance=np.sum(np.abs(x-y))

print(manhattan_distance)


3. 标准化欧氏距离 (Standardized Euclidean distance )


标准化欧氏距离是对欧氏距离的改进,将数据各维的分量都归一化到均值和方差相等。标准化欧氏距离也可以看成是一种加权欧氏距离。


python实现:

import numpy as np

x = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])
y = np.array([[5, 6, 7, 8],[1, 2, 3, 4]])

X = np.vstack([x,y])

sk=np.var(X,axis=0,ddof=1)

standardized_euclidean_distance=np.sqrt(((x - y) ** 2 /sk).sum())

print(standardized_euclidean_distance)

 

4. 余弦距离(Cosine Distance)


几何中,夹角余弦可用来衡量两个向量方向的差异;机器学习中,借用这一概念来衡量样本向量之间的差异。
夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1。余弦相似度与向量的幅值无关,只与向量的方向相关。

python实现:

import numpy as np

x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])

cosine_distance=np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))

print(cosine_distance)

 

5. 汉明距离(Hamming distance)


两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。

python实现:

import numpy as np

x = np.array([1., 2., 3., 4.])
y = np.array([5., 6., 7., 8.])

x=np.asarray(x,np.int32)
y=np.asarray(y,np.int32)

hamming_distance=np.mean(x!=y)
print(hamming_distance)

 

6. 交叉熵(cross entropy)


熵描述的是整个系统内部样本之间的一个距离,或者称之为系统内样本分布的集中程度(一致程度)、分散程度、混乱程度(不一致程度)。系统内样本分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。

欧氏距离损失经常用在线性回归问题(求解的是连续问题)中,而交叉熵损失经常用在逻辑回归问题(求解的是离散的分类问题)上,用来作为预测值和真实标签值的距离度量。经过卷积操作后,最后一层出来的特征经过softmax函数后会变成一个概率向量(当前输入分别属于N个分类的概率),我们可以看作为是概率分布q, 而真实标签我们可以看作是概率分布p, 因此真实分布p和预测分布q的交叉熵就是我们要求的loss损失值。

 

python实现:

import numpy as np

x = np.array([1., 2., 3., 4.])
label=np.array([1,0,0,1])

def softmax(x=x):
    return np.exp(x)/np.sum(np.exp(x),axis=0)
loss1=-np.sum(label*np.log(softmax(x)))

print(loss1)

 

7. 推土机距离(Wasserstein distance、Earth Mover's Distance)


Wasserstein 距离,也叫Earth Mover's Distance,推土机距离,简称EMD,用来表示两个分布的相似程度。

Wasserstein distance 衡量了把数据从分布“移动成”分布时所需要移动的平均距离的最小值(类似于把一堆土从一个形状移动到另一个形状所需要做的功的最小值),即就是Wasserstein距离在最优路径规划下的最小消耗。

Wessertein距离相比KL散度和JS散度的优势在于,即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的远近。而JS散度在此情况下是常量,KL散度可能无意义。

python实现(OpenCV2)

#coding:utf-8
import numpy as np
import cv
#p、q是两个矩阵,第一列表示权值,后面三列表示直方图或数量
p=np.asarray([[0.4,100,40,22],
            [0.3,211,20,2],
            [0.2,32,190,150],
            [0.1,2,100,100]],np.float32)
q=np.array([[0.5,0,0,0],
            [0.3,50,100,80],
            [0.2,255,255,255]],np.float32)
pp=cv.fromarray(p)
qq=cv.fromarray(q)
emd=cv.CalcEMD2(pp,qq,cv.CV_DIST_L2)
print(emd)
好的,针对你的问题,我可以给出以下几种常见的计算物品相似度的方法: 1. 余弦相似度(Cosine Similarity) 余弦相似度是一种常用计算两个物品之间相似度的方法。它通过计算两个向量之间余弦值来衡量它们的相似程度。在推荐系统中,可以将用户对物品的评分看作向量,使用余弦相似度计算两个物品之间的相似度。 2. 皮尔逊相关系数(Pearson Correlation Coefficient) 皮尔逊相关系数也是一种常用计算两个物品之间相似度的方法。它通过计算两个向量之间的皮尔逊相关系数来衡量它们的相似程度。在推荐系统中,可以将用户对物品的评分看作向量,使用皮尔逊相关系数计算两个物品之间的相似度。 3. Jaccard相似度(Jaccard Similarity) Jaccard相似度是一种常用计算两个物品之间相似度的方法。它通过计算两个集合的交集与并集的比值来衡量它们的相似程度。在推荐系统中,可以将用户对物品的评分看作集合,使用Jaccard相似度计算两个物品之间的相似度。 4. 信息熵相似度(Entropy-Based Similarity) 信息熵相似度是一种基于信息论的计算两个物品之间相似度的方法。它通过计算两个物品之间的信息熵来衡量它们的相似程度。在推荐系统中,可以将用户对物品的评分看作概率分布,使用信息熵相似度计算两个物品之间的相似度。 以上是常用计算物品相似度的方法,不同的方法适用于不同的推荐场景,具体使用哪一种方法需要根据具体情况来选择。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值