这次读一下新闻推荐领域比较经典的一篇文章:Google News Personalization: Scalable Online Collaborative Filtering,博文中会写一些我的笔记和补充知识。
Google新闻有以下两个特点:
- 数据量巨大;不论是用户,新闻在短短几天的时间里都是百万级别的;
- 新闻作为推荐的item更新速度是很快的。(新闻领域最突出的特点)
所以,鉴于已有的推荐算法并不能满足其需要,Google提出了这篇文章中的算法来solve自己的难题。
【核心想法】
collaborative filtering using MinHash clustering, Probabilistic La-tent Semantic Indexing (PLSI), and covisitation counts. We combine recommendations from different algorithms using a linear model.
【补充知识】
1. MiniHash
已知集合 X ,设Hash映射的函数是