面向数百万用户的嵌入式新闻推荐
- 雅虎
- KDD2017
摘要
- 基于ID的方法,如协同过滤和低阶分解,以推荐著称,但不适合用于新闻推荐,因为候选文章很快过期,并在短时间内被新的文章替换。
-
信息检索中经常使用的基于词的方法系统性能表现良好,但存在很多问题(处理同义词、拼写变体以及定义用户历史活动中的“查询”的能力等问题。)
介绍
新闻推荐的三个要点是:
- 理解文章内容
- 理解用户偏好
- 根据内容和偏好为单个用户列出选定的文章。
符合这三点的baseline模型是将文章表示成单词的word的集合,用户的表示是该用户浏览过的文章包含的word的集合,用候选文章和浏览历史比较共同出现的word来判断点击的概率,这个模型简单,容易学习;但是缺点是不能很好的判断近义词,也不能很好的更充分的利用用户的浏览历史
rnn擅长处理输入序列长度变化的情况,但是只用这个模型,不能符合要求的响应速度
因此本文提出了一种基于嵌入的三步 end-to-end方法分布式表示。
(1)从基于去噪自动编码器变体的文章分布式表示开始
(2)使用以浏览历史为输入序列的递归神经网络(RNN)生成用户表示