机器学习中那些相似度的计算方法及实现

最新推荐文章于 2024-06-23 17:40:29 发布

幸运六叶草

最新推荐文章于 2024-06-23 17:40:29 发布

阅读量4.8k

点赞数

分类专栏： Python Machine Learning

本文链接：https://blog.csdn.net/AnneQiQi/article/details/68482629

版权

在推荐系统中，我们需要计算两个物品的相似度，对于物品的描述，一般都可以量化为一个向量，于是两个物品之间的相似度就可以用两个向量的相关性来描述，这是概率论的范畴了。

假如我们希望相似度的值在0～1之间，并且越相似，值越大，有哪些办法？

1、计算欧式距离，然后根据“相似度=1/（1+距离）”计算相似度。

2、皮尔逊相关系数，在numpy中可以用线性代数模块linalg中的corrcoef()来计算相关系数（correlation coefficient）。得出结果的取值范围是-1～1，可通过“0.5+0.5*corrcoef()”将其缩放到0～1之间。

3、余弦相似度，计算的是两个向量的夹角的余弦值。余弦值=A*B/（||A||*||B||）。||A||表示A的2范数，可以用linalg模块中的norm()计算。余弦值在-1～1之间，同样需要缩放。

代码：

[python]view plaincopy 
    
 """ 
 Created on Sun Dec 28 10:33:42 2014 
  
 @author: wepon 

关注

专栏目录