dqn推荐系统_基于强化学习优化长期用户参与度的推荐系统

最新推荐文章于 2024-05-29 07:30:00 发布

皎洁09

最新推荐文章于 2024-05-29 07:30:00 发布

阅读量680

点赞数

文章标签： dqn推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35983453/article/details/112239504

版权

这篇文章介绍发表在KDD 2019上的论文

Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systemsarxiv.org

文章主要解决优化用户长期参与度的问题。

大多数传统的推荐系统将目标集中在一些实时指标上，比如点击率和转化率。一个好的推荐不同不仅能够带来更好的点击率，而且还能保持用户的活跃度，让用户更多的使用系统，后者则是长期的有延迟的指标。Delayed metrics通常更复杂，比如在App上的停留时间、翻页的深度和连续两次使用的时间间隔。直接进行这些指标的优化是比较困难的，但是强化学习直观上可以很好的解决问题。但是直接应用强化学习也有很大的挑战，用户长期参与度是很复杂的，往往需要更多的环境交互才能很好的建模。但是从零开始进行环境交互又有很大的弊端，因为大量的探索往往会影响用户体验，造成恶劣的影响。一种解决方法是通过使用日志数据离线构建推荐系统，但是MC和TD方法各有局限性。MC会造成很大的方差，TD会有Deadly Triad问题（将值函数估计，bootstrapping和离线训练结合时的不稳定性和不熟练）。为了解决以上问题，论文提出FeedRec的框架，使用基于DQN的方法构建Q-Network学习值函数，并且提出了S-Network来模拟环境，更有效的利用日志数据来减轻Deadly Triad问题，通过两个网络的迭代训练完成整体的学习

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
dqn推荐系统_基于强化学习优化长期用户参与度的推荐系统

这篇文章介绍发表在KDD 2019上的论文Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systemsarxiv.org文章主要解决优化用户长期参与度的问题。大多数传统的推荐系统将目标集中在一些实时指标上，比如点击率和转化率。一个好的推荐不同不仅能够带来更好的点击率，而且还能保持用户的活跃度...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。