推荐算法基础--相似度计算方法汇总

最新推荐文章于 2022-10-10 10:23:16 发布

weixin_30853329

最新推荐文章于 2022-10-10 10:23:16 发布

阅读量817

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/think90/p/11499103.html

版权

推荐算法基础--相似度计算方法汇总

2017年09月04日 15:21:57 Yoangh 阅读数 25186更多

分类专栏：推荐算法

本文链接： https://blog.csdn.net/y990041769/article/details/77837915

推荐系统中相似度计算可以说是基础中的基础了，因为基本所有的推荐算法都是在计算相似度，用户相似度或者物品相似度，这里罗列一下各种相似度计算方法和适用点

余弦相似度

similarity = cos (θ) = A \cdot B ∥ A ∥ ∥ B ∥ = \sum i = 1 n

这个基本上是最常用的，最初用在计算文本相似度效果很好，一般像tf-idf一下然后计算，推荐中在协同过滤以及很多算法中都比其他相似度效果理想。
由于余弦相似度表示方向上的差异，对距离不敏感，所以有时候也关心距离上的差异会先对每个值都减去一个均值，这样称为调整余弦相似度

欧式距离

d (x, y) := (x 1 - y 1) 2 + (x 2 - y 2) 2 +

基本上就是两个点的空间距离，下面这个图就能很明显的说明他和余弦相似度区别，欧式距离更多考虑的是空间中两条直线的距离，而余弦相似度关心的是空间夹角。所以

欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。

余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦距离对绝对数值不敏感）。

这里写图片描述