相似度计算

最新推荐文章于 2020-12-02 08:05:13 发布

chenshangan

最新推荐文章于 2020-12-02 08:05:13 发布

阅读量545

点赞数

分类专栏：杂文章标签： distance 算法 user web

杂专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在推荐系统中，最基础的一个概念就是计算相似度，很多的相似度都是基于距离计算出来的。

计算距离的方法有很多种，包括：Euclidian Distance，Pearson Correlation，Cosine Similarity， intersecion(A, B)/union(A,B)等

实际应用中，我们需要的相似度，希望它的值域为[0, 1]，距离和相似度并不一定一致，但可以相互转换。比如Euclidian Distance，其范围为0~无穷大。貌似我们可以通过简单的函数变换取得我们需要的结果，比如函数： 1/(x+1)。咋一看，没有任何问题。假如两个user，只有一个common item，对应的rate分别为4，1，他们的similarity是0.25，而另外两个用户，有三个common item，rate diff都是1，他们的similarity也是0.25，但实际上显然第二组用户的sim要比第一组的高，形如beta/(beta+x)的转换对 x>beta区间斜率较小，不过对x<beta区间斜率较大。所以在距离处理技巧上有很多值得推敲的地方，《智能Web算法》中提供了一个方法：使用双曲正切函数tanh（），具体为： (1 - tanh(x/commonItems)) * (commonItems/maxCommonItems)， maxCommonItems= max(itemList1.size(). itemList2.size())。这里还考虑了commonItem和commonItemRatio，更符合实际。

待续....

chenshangan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
相似度计算

在推荐系统中，最基础的一个概念就是计算相似度，很多的相似度都是基于距离计算出来的。计算距离的方法有很多种，包括：Euclidian Distance，Pearson Correlation，Cosine Similarity， intersecion(A, B)/union(A,B)等实际应用中，我们需要的相似度，希望它的值域为[0, 1]，距离和相似度并不一定一致，但可以相互转换。比如E
复制链接

扫一扫