推荐系统论文阅读 Why Does Collaborative Filtering Work?

本文通过分析二元图的拓扑结构,量化评估了协同过滤(CF)算法的表现。研究发现,C4系数能反映用户间共享兴趣的程度,进而预测CF算法相对于Top-N流行算法的优劣。实验证明,在Retail数据集上,CF算法表现出更显著的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇是一篇比较早的利用图来研究推荐系统的文章(2005):Why Does Collaborative Filtering Work? — Recommendation Model Validation and Selection by Analyzing Bipartite Random Graphs

作者利用二元图(bipartite)方法来对一个数据集做一个量化的评价,希望能够通过二元图拓扑结构的评价指标C{C}C来解释为何CF会比传统的算法好或者坏。定义的几种拓扑结构如下图所示,圆圈代表一个用户,方形代表一个物品。
在这里插入图片描述
由此可以定义一个4-node bipartite clustering coefficient:

C4=4×(number of 4−node cycles in the bipartite graph)number of 4−node paths{C_4 = \frac{4 × (number\ of\ 4-node\ cycles\ in\ the\ bipartite\ graph)}{number\ of\ 4-node\ paths}}C4=number of 4node paths4×(number of 4node cycles in the bipartite graph)

直观来想,如果C4{C_4}C4太小,说明两个顾客c1, c2{c_1,\ c_2}c1, c2很少会共同买两个物品p1, p2{p_1,\ p_2}p1, p2,那么CF算法可能表现不如传统的Top-N流行算法好,因为这种协同的关系太少了。反之,可能CF算法会优于传统算法。

实验用了两个数据集retail和book,具体信息如下图所示:
在这里插入图片描述
在这里插入图片描述

z-score: indicate how much the observed values deviate from the simulated distribution

Retail相比book来说,observed C4{C_4}C4偏离simulated更多(Z-score更大),CF算法相比Top-N流行算法表现更好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值