转载声明:http://blog.sina.com.cn/s/blog_804abfa70101btrv.html
推荐系统的资料分享
这个资料分享主要分享的都是非学术的Paper,都来自商业公司,Google, YouTube, Amazon, LinkedIn等等。
我个人非常喜欢这些文章,基本上,这些文章描述的都是在系统中的实际能工作的东西。
这个是Google的一篇论文http://t.cn/zl0zxPZ这个里面有很多有意思的想法。
- 推荐的结果是三个算法的融合,即MinHash, PLSI, covisitation.
- 融合的方式是分数线性加权
- 一个主要的思想是“online”的进行更新,所以这个地方一定要减少规模,索引使用了User Clustering的算法,包括Min Hash和PLSI。
- 在新数据来的时候,关键是不要去更新User Cluster,而是直接更新所属的Cluster对于URL的点击数据
- 对于新用户,使用covisitation的方法进行推荐
这个是上一篇Paper的进阶paper。 http://t.cn/zl0zqDO
- 这篇Paper在上一篇的基础上增加了一些内容,主要包括Topic部分的内容,Google News是有Topic信息的。
- 这篇Paper通过用户喜欢的Topic这个信息以及Topic Trend这个信息一起进行分析。
- 热门的topic会被更多的展现给用户,其中用户只会看到他喜欢的Topic
- 这个方法和上面的方法相比,可能对于解决热门News的问题,有更大的帮助
- 这篇Paper的的方法更直观,它只使用了covisitation的信息,但是对于covisitation的方法做了N次扩展,即找一个Seed的多次邻居。
- 在这个的基础上,做了一些后处理的工作,尤其是Diversity的工作
http://blog.sina.com.cn/s/blog_586631940100pduh.html
这个Paper比较老了,但是是item-Based推荐的经典文章了。
这个是IBM的两位同学对于推荐的一个综述,属于入门级的,看看也不错。
这个比较有营养,是高级货,是LinkedIn的兄弟们在KDD2012上发布的,有用!进阶以后值得看看,尤其是搞真系统的。
http://t.cn/zl0ZTN1
这个的角度更多的是推荐系统的HCI设计,前面是一堆哲学,看不懂可以跳过,后面的例子还是比较给力的。有几个数字很给力:
Amazon: 35% of sales result from recommendations
75% of Netflix views result from recommendations