[论文笔记]Item-based collaborative filtering recommendation algorithms

作者:Badrul Sarwar, George Karypi, Joseph Konstan, John Riedl

内容概要

1. 协同过滤:

目标:推荐TOP N item

类别:memory-based, model-based。

2. user-based的协同过滤的问题: a. 数据稀疏性  b.可扩展性(因为它在推荐时需要用到邻居信息,并且邻居更新更频繁)

3. item-based协同过滤

3.1 item相似度

    a. cosine相似度:只考虑item向量的点积

    b. correlation-based相似度(Pearson相似度):考虑了item的平均评分

    c. adjusted cosine相似度:考虑了用户对item的平均评分

3.2 预测计算:

    a. 使用相似度加权平均

    b. 使用回归模型。使用加权平均时,采用的与预测item i相似的item j的相似度Sim j* j的评分Rj。而使用回归模型时,它会计算出一个线性回归 f(j) =α*avg(Rj) + β + ξ,从而计算出一个不同于Rj的分值,然后再使用加权平均。

3.3 计算性能

item相似度离线计算。

推荐的时候,有两种策略,相对于最精确的取所有的n个相似商品,一种更为有效的策略是只取k(model size)个相似商品,其中k<<n。

4. 实验评估

4.1 数据源:采用了MovieLens的数据,包含了943个用户和1682部电影。其中评分数量为10W,即数据稀疏度为 1 - 100000/(943*1682) = 0.9369。

4.2 评价指标:

    a. statistical accuracy metrics:MAE(mean absolute error), RMSE等

    b. decision support accuracy metrics:reversal rate, weighted errors, ROC等

本论文使用MAE来评价推荐质量。

4.3 结果

    a. 相似度评价:adjusted cosine相似度效果最好。

    b. 训练/测试集拆分比例: 80%的训练集效果最好

    c. model size(相似item数量):基本的item-item算法,model size越大,推荐质量越好。然而基于回归的item-item算法,先是随着model size的增大有改善,再大之后就出现了过度拟合(论文观点),导致质量下降。权衡两者之后,取的model size=30。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值