推荐系统 - 基于用户的协同过滤推荐 - 入门

最新推荐文章于 2023-06-27 18:55:45 发布

abcd1101

最新推荐文章于 2023-06-27 18:55:45 发布

阅读量347

点赞数

分类专栏：数据挖掘文章标签：推荐系统数据挖掘

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

原文：https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md

定义

协同过滤，这个方法是利用他人的喜好来进行推荐，也就是说，是大家一起产生的推荐。他的工作原理是这样的：如果要推荐一本书给你，我会在网站上查找一个和你类似的用户，然后将他喜欢的书籍推荐给你。

如何找到相似的用户？

曼哈顿距离

不同最简单的距离计算方式是曼哈顿距离。可以在物品评分里用。在二维模型中，每个人都可以用(x, y)的点来表示，这里我用下标来表示不同的人，(x1, y1)表示艾米对两个作品的评分，(x2, y2)表示那位神秘的X先生，那么他们之间的曼哈顿距离就是：

也就是x之差的绝对值加上y之差的绝对值
曼哈顿距离的优点之一是计算速度快，对于Facebook这样需要计算百万用户之间的相似度时就非常有利。
欧几里得距离

勾股定理

也许你还隐约记得勾股定理。另一种计算距离的方式就是看两点之间的直线距离：c平方=a平方+b平方

欧几里得距离，可以在物品评分里用。公式是：
闵可夫斯基距离
我们可以将曼哈顿距离和欧几里得距离归纳成一个公式，这个公式称为闵可夫斯基距离：
其中：r = 1 该公式即曼哈顿距离，r = 2 该公式即欧几里得距离，r = ∞ 极大距离
余弦相似度

它在文本挖掘中应用得较多，每个用户播放歌曲的次数也可以。

余弦相似度的计算中会略过这些非零值。它的计算公式是：

其中，“·”号表示数量积。“||x||”表示向量x的模，计算公式是：

问题

相似算法问题1 - 数据稀疏

iTunes上有1500万首音乐，而我只听过4000首。所以说单个用户的数据是稀疏的，因为非零值较总体要少得多。当我们用1500万首歌曲来比较两个用户时，很有可能他们之间没有任何交集，这样一来就无从计算他们之间的距离了。曼哈顿距离和欧几里得距离在数据完整的情况下效果最好。如何处理缺失数据，这在研究领域仍是一个活跃的话题。本书的后续内容会进行一些讨论，这里先不展开。可以看谁与谁的距离最近，从而推荐最相似的用户高分的东西给他。

相似算法问题2 - 打分标准非常不同

如何比较这些用户呢？比如Hailey的4分相当于Jordan的4分还是5分呢？我觉得更接近5分。这样一来就会影响到推荐系统的准确性了。

左：我非常喜欢Broken Bells乐队，所以我给他们打4分！
右：Broken Bells乐队还可以，我打4分。

问题2解决方法之一是使用皮尔逊相关系数，简单来说就是看两个人的评分趋势，如果一致就是相似。具体解析：

https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md#%E7%9A%AE%E5%B0%94%E9%80%8A%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0

总结

需要使用K最邻近算法结合相似度算法来做推荐。

应该使用哪种相似度？

如果数据存在“分数膨胀”问题，就使用皮尔逊相关系数。
如果数据比较“密集”，变量之间基本都存在公有值，且这些距离数据是非常重要的，那就使用欧几里得或曼哈顿距离。
如果数据是稀疏的，则使用余弦相似度。

代码

https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md#python%E6%8E%A8%E8%8D%90%E6%A8%A1%E5%9D%97

abcd1101

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
推荐系统 - 基于用户的协同过滤推荐 - 入门

原文：https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md定义协同过滤，这个方法是利用他人的喜好来进行推荐，也就是说，是大家一起产生的推荐。他的工作原理是这样的：如果要推荐一本书给你，我会在网站上查找一个和你类似的用户，然后将他喜欢的书籍推荐给你。如何找到相似的用户？曼哈顿距离不...
复制链接

扫一扫