协同过滤算法

最新推荐文章于 2024-06-19 23:28:31 发布

David&Tea

最新推荐文章于 2024-06-19 23:28:31 发布

阅读量671

点赞数 1

分类专栏：大数据(1)

本文链接：https://blog.csdn.net/u011672579/article/details/54426518

版权

大数据(1) 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

协同过滤算法

算法介绍

关于协同过滤的一个最经典的例子就是看电影，有时候不知道哪一部电影是我们喜欢的或者评分比较高的，那么通常的做法就是问问周围的朋友，看看最近有什么好的电影推荐。在问的时候，都习惯于问跟自己口味差不多的朋友，这就是协同过滤的核心思想。

协同过滤是在海量数据中挖掘出小部分与你品味类似的用户，在协同过滤中，这些用户成为邻居，然后根据他们喜欢的东西组织成一个排序的目录推荐给你。

算法步骤

1 收集用户偏好

从用户的行为和偏好中发现规律，并基于此进行推荐，所以如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多种方式向系统提供自己的偏好信息，比如：评分，投票，转发，保存书签，购买，点击流，页面停留时间等等。

以上的用户行为都是通用的，在实际推荐引擎设计中可以自己多添加一些特定的用户行为，并用它们表示用户对物品的喜好程度。通常情况下，在一个推荐系统中，用户行为都会多于一种，那么如何组合这些不同的用户行为呢？基本上有如下两种方式

（1）将不同的行为分组

一般可以分为查看和购买，然后基于不同的用户行为，计算不同用户或者物品的相似度。类似与当当网或者亚马逊给出的"购买了该书的人还购买了"，"查看了该书的人还查看了"等等。

（2）不同行为产生的用户喜好对它们进行加权

对不同行为产生的用户喜好进行加权，然后求出用户对物品的总体喜好。

好了，当我们收集好用户的行为数据后，还要对数据进行预处理，最核心的工作就是减噪和归一化。

减噪： 因为用户数据在使用过程中可能存在大量噪音和误操作，所以需要过滤掉这些噪音。

归一化：不同行为数据的取值相差可能很好，例如用户的查看数据肯定比购买数据大得多。通过归一化，才能使数据更加准确。

2 找到相似用户或者物品

对用户的行为分析得到用户的喜好后，可以根据用户的喜好计算相似用户和物品，然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了，基于用户的和基于物品的协同过滤。

在获取用户对物品的评价矩阵时，有些用户对物品的评价可能是缺失的，这是我们可以采用SVD算法来对这些缺失项进行补足：

SVD算法

SVD(Singular Value Decomposition)的想法是根据已有的评分情况，分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度，最后再反过来根据分析结果预测评分。电影中的因子可以理解成这些东西：电影的搞笑程度，电影的爱情爱得死去活来的程度，电影的恐怖程度。。。。。。

通过SVD算法可以补足用户对于某个电影的评分缺失的情况。

相似度计算

关于相似度的计算有很多种方法，比如常用的余弦夹角，欧几里德距离度量，皮尔逊相关系数等等。而如果采用欧几里德度量，那么可以用如下公式来表示相似度

在计算用户之间的相似度时，是将一个用户对所有物品的偏好作为一个向量，而在计算物品之间的相似度时，是将所有用户对某个物品的偏好作为一个向量。求出相似度后，接下来可以求相似邻居了。

3计算并推荐

在上面，我们求出了相邻用户和相邻物品，接下来就应该进行推荐了。当然从这一步开始，分为两方面，分别是基于用户的协同过滤和基于物品的协同过滤。我会分别介绍它们的原理

（1）基于用户的协同过滤算法

在上面求相似邻居的时候，通常是求出TOP K邻居，然后根据邻居的相似度权重以及它们对物品的偏好，预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表进行推荐。

先找相似的人，然后把相似人觉得好的物品推荐给他

（2）基于物品的协同过滤算法

跟上述的基于用户的协同过滤算法类似，但它从物品本身，而不是用户角度。比如喜欢物品A的用户都喜欢物品C，那么可以知道物品A与物品C的相似度很高，而用户C喜欢物品A，那么可以推断出用户C也可能喜欢物品C。如下图

上面的相似度权重有时候需要加入惩罚因子，举个例子，在日常生活中，我们每个人购买卫生纸的的频率比较高，但是不能说明这些用户的兴趣点相似，但是如果它们都买了照相机，那么就可以大致推出它们都是摄影爱好者。所以像卫生纸这样的物品在计算时，相似度权重需要加上惩罚因子或者干脆直接去掉这类数据。

先找相似的物品，然后把他自己觉得好的物品相似的物品推荐给他。

算法实现

阿里推荐引擎

参考连接： http://blog.csdn.net/acdreamers/article/details/44672305

David&Tea

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
协同过滤算法

协同过滤算法算法介绍关于协同过滤的一个最经典的例子就是看电影，有时候不知道哪一部电影是我们喜欢的或者评分比较高的，那么通常的做法就是问问周围的朋友，看看最近有什么好的电影推荐。在问的时候，都习惯于问跟自己口味差不多的朋友，这就是协同过滤的核心思想。协同过滤是在海量数据中挖掘出小部分与你品味类似的用户，在协同过滤中，这些用户成为邻居，然后根据他们喜欢的东西组织成一个排
复制链接

扫一扫