[论文笔记]Item-based collaborative filtering recommendation algorithms

最新推荐文章于 2021-04-15 11:32:12 发布

inte_sleeper

最新推荐文章于 2021-04-15 11:32:12 发布

阅读量2.9k

点赞数

分类专栏：数据挖掘推荐系统文章标签：算法扩展测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/inte_sleeper/article/details/7466001

版权

数据挖掘同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

作者：Badrul Sarwar, George Karypi, Joseph Konstan, John Riedl

内容概要

1. 协同过滤：

目标：推荐TOP N item

类别：memory-based, model-based。

2. user-based的协同过滤的问题： a. 数据稀疏性 b.可扩展性（因为它在推荐时需要用到邻居信息，并且邻居更新更频繁）

3. item-based协同过滤

3.1 item相似度

a. cosine相似度：只考虑item向量的点积

b. correlation-based相似度（Pearson相似度）：考虑了item的平均评分

c. adjusted cosine相似度：考虑了用户对item的平均评分

3.2 预测计算：

a. 使用相似度加权平均

b. 使用回归模型。使用加权平均时，采用的与预测item i相似的item j的相似度Sim j* j的评分Rj。而使用回归模型时，它会计算出一个线性回归 f(j) =α*avg(Rj) + β + ξ，从而计算出一个不同于Rj的分值，然后再使用加权平均。

3.3 计算性能

item相似度离线计算。

推荐的时候，有两种策略，相对于最精确的取所有的n个相似商品，一种更为有效的策略是只取k（model size）个相似商品，其中k<<n。

4. 实验评估

4.1 数据源：采用了MovieLens的数据，包含了943个用户和1682部电影。其中评分数量为10W，即数据稀疏度为 1 - 100000/(943*1682) = 0.9369。

4.2 评价指标：

a. statistical accuracy metrics：MAE(mean absolute error)， RMSE等

b. decision support accuracy metrics：reversal rate, weighted errors, ROC等

本论文使用MAE来评价推荐质量。

4.3 结果

a. 相似度评价：adjusted cosine相似度效果最好。

b. 训练/测试集拆分比例： 80%的训练集效果最好

c. model size（相似item数量）：基本的item-item算法，model size越大，推荐质量越好。然而基于回归的item-item算法，先是随着model size的增大有改善，再大之后就出现了过度拟合（论文观点），导致质量下降。权衡两者之后，取的model size=30。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。