1. Memory based CF
- ItemBasedCollaborative Filtering Recommendation Algorithms, WWW10
经典的item-based CF,发在www 2010 - Amazon.comrecommendations: Item-to-Item Collaborative Filtering, IEEEINTERNET COMPUTING, 2013
Amazon最早的item-based CF paper,amazon对item-basedCF的应用应该比www上边那篇早,但是他们没有公开,申请了专利。 - Item-based top- N recommendationalgorithms ToIS, 2004
调item-based CF相似度的进阶读物,作者是www 10的二作, George Karypis,这哥们有一系列推荐相关的工作,包括后边一系列SLIM的工作和分支,都是他的学生。这篇文章对比了各种相似度的优劣,以及调相似度的一些trick和原理理解,很充分。 - TheLink Prediction Problem for Social Networks, CIKM,2003
JonKleinberg很早的文章,Kleinberg是网络领域的大牛。这篇文章是研究各种相似度计算的基础读物,虽然用的网络是SoicalNetwork(user-user这种同质网络),电子商务里是user-item的bipartie,但是原理都是相通的。 - ASurvey of Collaborative Filtering Techniques, Journal,Advancesin Artificial Intelligence, 2009
非常好的综述性文章,引用量1800+,里边也涵盖了model based-CF相关的方法。 - Google newspersonalization: scalable online collaborative filtering, WWW2007
Google的文章,讲google的新闻推荐,看的比较早了,引用量很高,印像中通篇的方法都非常简单。值得借鉴的是用Minhash对user做聚类,给出了map-reduce的实现,非常贴近业界的实际应用。
2. Model based CF
2.0 Simon Funk SVD
- Netflixupdate: try this at home, 2006
用SGD做矩阵分解的鼻祖,传统矩阵奇异值分解方法在大数据集上会有严重的计算效率问题。
2.1 Koren的paper
- Matrix factorization techniques for recommender systems, IEEEComputer Society, 2009
Yehuda Koren的文章,Koren是netflix竞赛的获胜者。里边算法原理、来龙去脉讲的非常清楚,MF入门必读的经典综述性paper。顺着paper里的reference基本上可以理清Koren所有工作的分支。 - Collaborative filtering for implicit feedback datasets, ICDM2008
讲MF如何应用在隐式反馈的数据集上。现实工业界中大部分数据都是隐式反馈(点击/购买等),而不是netflix和movieLens那种评分数据。 - Factorization meets the neighborhood: a multifaceted collaborativefiltering model), KDD 2008
讲MF和neighborhood方法如何结合,即用Model的方法去学item的相似矩阵。SVD++就出自这篇文章,反正就是在目标函数里加各种信息和各种bias,你用了额外的信息嘛,如果使用得当效果肯定会更好,大规模工业界应用会有计算效率问题。
还有更早的一篇: Scalable collaborative filtering with jointly derivedneighborhood interpolation weights,发在ICDM 2007,我没看过。 - Improving RegularizedSingular Value Decomposition for Collaborative Filtering, A.Paterek, KDD cup 2007.
这篇不是Koren的文章,但是SVD++里,固定user矩阵,学两个item latentfactor矩阵的思路应该是从这篇paper里来的。
2.2 Rendle的paper
- BPR: Bayesian personalizedranking from implicit feedback, UAI 2009.
BPR - Factorization Machines with libFM, TIST 2012.
著名的FM就来于这篇文章。 - Improving pairwise learning for item recommendation from implicitfeedback, WSDM 2014.
很惭愧rendle的几篇文章都还没有深入去看,他好像2013年就从大学辞职加入了google,据说在搞分布式的FM,而且已经在大规模应用了。
一位朋友说Koren更学术,而rendle的工作更贴近实际应用。
2.3 SLIM && GeorgeKarypis的paper
SLIM的一系列paper都是George的学生搞的
Slim: Sparse linear methods for top-n recommender systems, ICDM2011
SLIM可以看成了MF的一种特例,user用原始的item空间,而item学一个aggregationcoefficients矩阵,即每个item学一个用其他item的线性组合表征。这个方法更贴近业界的实际应用,因为学到的W是非常稀疏的一个矩阵,而且是非负的,这样在生成top-n推荐候选集的时候计算是很快的。Sparse linear methods with side information for top-nrecommendations, RecSys 2012.
SLIM如何结合side information一起做优化.Fism: factored item similarity models for top-n recommendersystems, KDD 2013
作者也是George的学生,思路源于Paterek KDD cup 07那篇NSVD和SLIM结合,去学两个item的latentfactormatrix。和NSVD最大不一样的地方就是约束了对角线=0,也就是说在做分解的时候不用item本身去还原他自己,同时加了L1norm。学出来的是稠密矩阵,而且去掉了SLIM中W>0的限制,评测上HR(HitRate)要好于SLIM和其他方法,而且好不少。但是同样,大规模应用又会遇到计算效率的问题。(这不又回去了么...)Hoslim_Higher-order_sparse_linear_method,PAKDD 2014
细节还没看,估计就是在目标函数上做一些改动什么的又发了一篇。
3. 其他
- Utilizing related products for post-purchase recommendation ine-commerce, RecSys 2011.
我做搭配推荐的部分思路受这篇文章启发,突然发现这篇paper的二作是WWW10 item-basedCF那篇的一作,这个文章好像还获得了recsy2011 best short paper,满满都是套路。。