DRN: A Deep Reinforcement Learning Framework for News Recommendation
Guanjie Zheng, Fuzheng Zhang, Zihan Zheng, Yang Xiang, Nicholas Jing Yuan, Xing Xie, Zhenhui Li
Pennsylvania State University, Microsoft Research Asia
http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf
这篇文章提出一种新的深度强化学习框架,用于新闻推荐。在线个性化新闻推荐挑战性很大,这是因为新闻特征和用户偏好是动态变化的。
目前有一些在线推荐模型可以捕捉到新闻推荐的动态属性,但是,这些方法存在三个主要问题。第一,这些模型只尝试对当前奖励(比如CTR)进行建模。第二,很少研究考虑利用用户反馈,而不是点击或者不点击作为标签,比如用户返回的频率,来提升推荐效果。第三,这些方法倾向于对用户推荐相似的新闻,这可能会引起用户的厌倦。
为了解决上述挑战,作者们提出一种基于深层Q-学习的推荐框架,可以对未来奖励精确建模。作者们进一步考虑用户返回的模式,作为点击与否标签的补充,进而可以捕捉更多的用户反馈信息。此外,还融入了一种高效的探索策略用于发现新的有吸引力的新闻推荐给用户。
在线下数据集和线上生产环境中的商业新闻推荐应用中的实验表明作者们所提方法的优越性能。
新闻推荐具有很强的动态变化属性
下面是一个用户10周的兴趣变化趋势
用户多久返回目前还比较缺乏相关研究
现有模型缺陷之一还体现在只推荐相似的商品
作者们所提模型重要特性在于
环境 智能体 状态 行动 奖励跟各个模块的对应关系如下
整个模型图示如下
这篇文章的主要贡献如下
下面是一些