宾大微软联合提出深层强化学习框架用于新闻推荐

DRN: A Deep Reinforcement Learning Framework for News Recommendation

Guanjie Zheng, Fuzheng Zhang, Zihan Zheng, Yang Xiang, Nicholas Jing Yuan, Xing Xie, Zhenhui Li

Pennsylvania State University, Microsoft Research Asia

http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf

这篇文章提出一种新的深度强化学习框架,用于新闻推荐。在线个性化新闻推荐挑战性很大,这是因为新闻特征和用户偏好是动态变化的。

目前有一些在线推荐模型可以捕捉到新闻推荐的动态属性,但是,这些方法存在三个主要问题。第一,这些模型只尝试对当前奖励(比如CTR)进行建模。第二,很少研究考虑利用用户反馈,而不是点击或者不点击作为标签,比如用户返回的频率,来提升推荐效果。第三,这些方法倾向于对用户推荐相似的新闻,这可能会引起用户的厌倦。

为了解决上述挑战,作者们提出一种基于深层Q-学习的推荐框架,可以对未来奖励精确建模。作者们进一步考虑用户返回的模式,作为点击与否标签的补充,进而可以捕捉更多的用户反馈信息。此外,还融入了一种高效的探索策略用于发现新的有吸引力的新闻推荐给用户。

在线下数据集和线上生产环境中的商业新闻推荐应用中的实验表明作者们所提方法的优越性能。

新闻推荐具有很强的动态变化属性

下面是一个用户10周的兴趣变化趋势

用户多久返回目前还比较缺乏相关研究

现有模型缺陷之一还体现在只推荐相似的商品

作者们所提模型重要特性在于

环境 智能体 状态 行动 奖励跟各个模块的对应关系如下

整个模型图示如下

这篇文章的主要贡献如下

下面是一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值