向量的相似度计算常用方法

向量的相似度计算常用方法

相似度的计算简介

   关于相似度的计算,现有的几种基本方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐的场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法。

共8种。每人选择一个。第9题为选做。

编写程序实现(这是第一个小练习,希望大家自己动手,java实现)。计算两个向量的相似性:

向量1(0.15, 0.45, 0.l68, 0.563, 0.2543, 0.3465,0.6598, 0.5402, 0.002)

向量2(0.81, 0.34, 0.l66, 0.356, 0.283, 0.655,0.4398, 0.4302, 0.05402)

 

1、皮尔逊相关系数(Pearson Correlation Coefficient)

皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在 [-1,+1] 之间。

sx, sy是 x 和 y 的样品标准偏差。

类名:PearsonCorrelationSimilarity

原理:用来反映两个变量线性相关程度的统计量

范围:[-1,1],绝对值越大,说明相关性越强,负相关对于推荐的意义小。

说明:1、 不考虑重叠的数量;2、 如果只有一项重叠,无法计算相似性(计算过程被除数有n-1);3、 如果重叠的值都相等,也无法计算相似性(标准差为0,做除数)。

该相似度并不是最好的选择,也不是最坏的选择,只是因为其容易理解,在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。Mahout,为皮尔森相关计算提供了一个扩展,通过增加一个枚举类型(Weighting)的参数来使得重叠数也成为计算相似度的影响因子。

2、欧几里德距离(Euclidean Distance)

最初用于计算欧几里德空间中两个点的距离,假设 x,y 是 n 维空间的两个点,它们之间的欧几里德距离是:

可以看出,当 n=2 时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。

类名:EuclideanDistanceSimilarity

原理:利用欧式距离d定义的相似度s,s=1 / (1+d)。

范围:[0,1],值越大,说明d越小,也就是距离越近,则相似度越大。

说明:同皮尔森相似度一样,该相似度也没有考虑重叠数对结果的影响,同样地,Mahout过增加一个枚举类型(Weighting)的参数来使得重叠数也成为计算相似度的影响因子。

3、Cosine 相似度(CosineSimilarity)

Cosine 相似度被广泛应用于计算文档数据的相似度:

类名: UncenteredCosineSimilarity

原理:多维空间两点与所设定的点形成夹角的余弦值。

范围:[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小。

说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮尔森相似度是一样的,在mahout中,实现了数据中心化的过程,所以皮尔森相似度值也是数据中心化后的余弦相似度。另外在新版本中,Mahout提供了UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。

 

4、Tanimoto 系数(TanimotoCoefficient)

Tanimoto 系数也称为 Jaccard 系数,是 Cosine 相似度的扩展,也多用于计算文档数据的相似度:

类名:TanimotoCoefficientSimilarity

原理:又名广义Jaccard系数,是对Jaccard系数的扩展,等式为

范围:[0,1],完全重叠时为1,无重叠项时为0,越接近1说明越相似。

说明:处理无打分的偏好数据。

 

5、曼哈顿距离

类名:CityBlockSimilarity

原理:曼哈顿距离的实现,同欧式距离相似,都是用于多维数据空间距离的测度

范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。

说明:比欧式距离计算量少,性能相对高。

曼哈顿距离公式:

 

6、马氏距离

7、兰氏距离公式

8、切比雪夫距离公式

第9题为选做题。感兴趣的就做,不感兴趣可以不做。

9、Hausdorff distance

The Hausdorff distance measures the distance between setsof points. It captures the “maximum distance of a point in a set to the nearestpoint in the other set.”

 

Input:

  • 4
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java中可以使用向量相似度计算来衡量两个向量之间的相似程度。常用向量相似度计算方法有余弦相似度和欧氏距离。 1. 余弦相似度(Cosine Similarity):余弦相似度是通过计算两个向量的夹角来衡量它们之间的相似程度。具体计算公式如下: ![cosine_similarity](https://img-blog.csdnimg.cn/20210709103605134.png) 其中,A和B分别表示两个向量,|A|和|B|分别表示两个向量的模,A·B表示两个向量的点积。 2. 欧氏距离(Euclidean Distance):欧氏距离是通过计算两个向量之间的距离来衡量它们之间的相似程度。具体计算公式如下: ![euclidean_distance](https://img-blog.csdnimg.cn/20210709103605135.png) 其中,A和B分别表示两个向量,n表示向量的维度。 在Java中,可以使用Apache Commons Math库来进行向量相似度计算。以下是使用Apache Commons Math库计算余弦相似度和欧氏距离的示例代码: ```java import org.apache.commons.math3.linear.ArrayRealVector; import org.apache.commons.math3.linear.RealVector; import org.apache.commons.math3.linear.VectorUtil; public class VectorSimilarity { public static void main(String[] args) { double[] vectorA = {1, 2, 3}; double[] vectorB = {4, 5, 6}; RealVector a = new ArrayRealVector(vectorA); RealVector b = new ArrayRealVector(vectorB); // 计算余弦相似度 double cosineSimilarity = VectorUtil.cosineDistance(a, b); System.out.println("Cosine Similarity: " + cosineSimilarity); // 计算欧氏距离 double euclideanDistance = a.getDistance(b); System.out.println("Euclidean Distance: " + euclideanDistance); } } ``` 注意:在使用示例代码之前,需要先引入Apache Commons Math库。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值