宾大微软联合提出深层强化学习框架用于新闻推荐

最新推荐文章于 2024-11-01 15:27:42 发布

frank_hetest

最新推荐文章于 2024-11-01 15:27:42 发布

阅读量176

点赞数 1

文章标签：深度学习人工智能机器学习大数据编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hestendelin/article/details/117236141

版权

DRN: A Deep Reinforcement Learning Framework for News Recommendation

Guanjie Zheng, Fuzheng Zhang, Zihan Zheng, Yang Xiang, Nicholas Jing Yuan, Xing Xie, Zhenhui Li

Pennsylvania State University, Microsoft Research Asia

http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf

这篇文章提出一种新的深度强化学习框架，用于新闻推荐。在线个性化新闻推荐挑战性很大，这是因为新闻特征和用户偏好是动态变化的。

目前有一些在线推荐模型可以捕捉到新闻推荐的动态属性，但是，这些方法存在三个主要问题。第一，这些模型只尝试对当前奖励（比如CTR）进行建模。第二，很少研究考虑利用用户反馈，而不是点击或者不点击作为标签，比如用户返回的频率，来提升推荐效果。第三，这些方法倾向于对用户推荐相似的新闻，这可能会引起用户的厌倦。

为了解决上述挑战，作者们提出一种基于深层Q-学习的推荐框架，可以对未来奖励精确建模。作者们进一步考虑用户返回的模式，作为点击与否标签的补充，进而可以捕捉更多的用户反馈信息。此外，还融入了一种高效的探索策略用于发现新的有吸引力的新闻推荐给用户。

在线下数据集和线上生产环境中的商业新闻推荐应用中的实验表明作者们所提方法的优越性能。

新闻推荐具有很强的动态变化属性

下面是一个用户10周的兴趣变化趋势

用户多久返回目前还比较缺乏相关研究

现有模型缺陷之一还体现在只推荐相似的商品

作者们所提模型重要特性在于

环境智能体状态行动奖励跟各个模块的对应关系如下

整个模型图示如下

这篇文章的主要贡献如下

下面是一些

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。