推荐系统入门必读的经典paper

最新推荐文章于 2024-07-25 10:24:19 发布

solo_ws

最新推荐文章于 2024-07-25 10:24:19 发布

阅读量1.6k

点赞数

分类专栏： recommendation system

recommendation system 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

转载▼http://blog.sina.com.cn/runnery

哥本草根的博客

CollaborativeFiltering主要包含两个分支，最早是Memory based(包括user-based和item-based)，netflix2006年的竞赛之后发展出来一系列基于矩阵分解Matrix Factorization的协同过滤算法，统称为Model basedCF。

1. Memory based CF

ItemBasedCollaborative Filtering Recommendation Algorithms, WWW10
经典的item-based CF，发在www 2010
Amazon.comrecommendations: Item-to-Item Collaborative Filtering, IEEEINTERNET COMPUTING, 2013
Amazon最早的item-based CF paper，amazon对item-basedCF的应用应该比www上边那篇早，但是他们没有公开，申请了专利。
Item-based top- N recommendationalgorithms ToIS, 2004
调item-based CF相似度的进阶读物，作者是www 10的二作， George Karypis,这哥们有一系列推荐相关的工作，包括后边一系列SLIM的工作和分支，都是他的学生。这篇文章对比了各种相似度的优劣，以及调相似度的一些trick和原理理解，很充分。
TheLink Prediction Problem for Social Networks, CIKM,2003
JonKleinberg很早的文章，Kleinberg是网络领域的大牛。这篇文章是研究各种相似度计算的基础读物，虽然用的网络是SoicalNetwork(user-user这种同质网络)，电子商务里是user-item的bipartie，但是原理都是相通的。
ASurvey of Collaborative Filtering Techniques, Journal，Advancesin Artificial Intelligence, 2009
非常好的综述性文章，引用量1800+，里边也涵盖了model based-CF相关的方法。
Google newspersonalization: scalable online collaborative filtering, WWW2007
Google的文章，讲google的新闻推荐，看的比较早了，引用量很高，印像中通篇的方法都非常简单。值得借鉴的是用Minhash对user做聚类，给出了map-reduce的实现，非常贴近业界的实际应用。

2. Model based CF

2.0 Simon Funk SVD

Netflixupdate: try this at home, 2006
用SGD做矩阵分解的鼻祖，传统矩阵奇异值分解方法在大数据集上会有严重的计算效率问题。

2.1 Koren的paper

Matrix factorization techniques for recommender systems, IEEEComputer Society, 2009
Yehuda Koren的文章，Koren是netflix竞赛的获胜者。里边算法原理、来龙去脉讲的非常清楚，MF入门必读的经典综述性paper。顺着paper里的reference基本上可以理清Koren所有工作的分支。
Collaborative filtering for implicit feedback datasets, ICDM2008
讲MF如何应用在隐式反馈的数据集上。现实工业界中大部分数据都是隐式反馈(点击/购买等)，而不是netflix和movieLens那种评分数据。
Factorization meets the neighborhood: a multifaceted collaborativefiltering model), KDD 2008
讲MF和neighborhood方法如何结合，即用Model的方法去学item的相似矩阵。SVD++就出自这篇文章，反正就是在目标函数里加各种信息和各种bias，你用了额外的信息嘛，如果使用得当效果肯定会更好，大规模工业界应用会有计算效率问题。
还有更早的一篇： Scalable collaborative filtering with jointly derivedneighborhood interpolation weights，发在ICDM 2007，我没看过。
Improving RegularizedSingular Value Decomposition for Collaborative Filtering, A.Paterek, KDD cup 2007.
这篇不是Koren的文章，但是SVD++里，固定user矩阵，学两个item latentfactor矩阵的思路应该是从这篇paper里来的。

2.2 Rendle的paper

BPR: Bayesian personalizedranking from implicit feedback, UAI 2009.
BPR
Factorization Machines with libFM, TIST 2012.
著名的FM就来于这篇文章。
Improving pairwise learning for item recommendation from implicitfeedback, WSDM 2014.
很惭愧rendle的几篇文章都还没有深入去看，他好像2013年就从大学辞职加入了google，据说在搞分布式的FM，而且已经在大规模应用了。
一位朋友说Koren更学术，而rendle的工作更贴近实际应用。

2.3 SLIM && GeorgeKarypis的paper

SLIM的一系列paper都是George的学生搞的

Slim: Sparse linear methods for top-n recommender systems, ICDM2011
SLIM可以看成了MF的一种特例，user用原始的item空间，而item学一个aggregationcoefficients矩阵，即每个item学一个用其他item的线性组合表征。这个方法更贴近业界的实际应用，因为学到的W是非常稀疏的一个矩阵，而且是非负的，这样在生成top-n推荐候选集的时候计算是很快的。
Sparse linear methods with side information for top-nrecommendations, RecSys 2012.
SLIM如何结合side information一起做优化.
Fism: factored item similarity models for top-n recommendersystems, KDD 2013
作者也是George的学生，思路源于Paterek KDD cup 07那篇NSVD和SLIM结合，去学两个item的latentfactormatrix。和NSVD最大不一样的地方就是约束了对角线=0，也就是说在做分解的时候不用item本身去还原他自己，同时加了L1norm。学出来的是稠密矩阵，而且去掉了SLIM中W>0的限制，评测上HR(HitRate)要好于SLIM和其他方法，而且好不少。但是同样，大规模应用又会遇到计算效率的问题。(这不又回去了么...)
Hoslim_Higher-order_sparse_linear_method,PAKDD 2014
细节还没看，估计就是在目标函数上做一些改动什么的又发了一篇。

3. 其他

Utilizing related products for post-purchase recommendation ine-commerce, RecSys 2011.
我做搭配推荐的部分思路受这篇文章启发，突然发现这篇paper的二作是WWW10 item-basedCF那篇的一作，这个文章好像还获得了recsy2011 best short paper，满满都是套路。。

by runnery，梳理于2016.12.15