dqn推荐系统_京东：利用DRL算法进行带负反馈的商品推荐

最新推荐文章于 2024-08-17 01:03:57 发布

txu666

最新推荐文章于 2024-08-17 01:03:57 发布

阅读量601

点赞数

文章标签： dqn推荐系统

本文链接：https://blog.csdn.net/weixin_42431577/article/details/112239497

版权

本文介绍了将深度强化学习（DRL）应用于推荐系统的DEERS算法，旨在解决传统推荐系统无法实时捕捉用户兴趣变化的问题。DEERS通过用户与系统的交互，结合正负反馈优化推荐策略，其模型框架包括基本DQN和考虑负反馈的DEERS模型，利用GRU和商品偏序关系提高推荐质量。

摘要由CSDN通过智能技术生成

背景与介绍

大都数传统的推荐系统（协同过滤、基于内容的推荐、learning-to-rank）只是将推荐过程当做一个静态的过程，并且在一段时间内是根据固定的模型来进行推荐。当用户的兴趣发生动态变化时，这些传统方法推荐的内容就不能捕捉到用户兴趣的实时变化。因此本文提出了一种DRL算法，可通过推荐系统和用户不断交互来持续提升推荐质量。

在电商领域，用户有正反馈和负反馈（比如用户点击了商品为正反馈，用户对商品没有任何操作称为负反馈），并且负反馈的数量远远大于正反馈。因此正反馈给模型带来的影响经常被负反馈给“冲刷”掉。本文提出的deep recommender system(DEERS)的算法框架可将正、负反馈同时融入到模型中。

文中将了将RL引入到推荐系统中的两个优势：1. 通过用户与推荐系统的不断交互，可持续更新try-and-error策略，直到模型收敛到最优；2. 在当前状态动作对下，通过带延迟奖赏构造的value值可不断训练推荐模型。对于一个用户来讲，其最优的策略就是最大化该用户的期望累计奖赏。因此推荐系统通过很小的即时奖赏就可筛选出商品。

问题建模

环境：用户 agent：推荐系统

MDP中各元素的定义为：

状态空间S：用户之前的浏览历史，包括点击／购买过的和略过的，二者分开进行处理。同时，物品是按照先后顺序进行排序的。动作空间A：一次只给用户推荐一个物品，那么推荐的物品即动作。即时奖励R：在给用户推荐一个物品后，用户可以选择忽略、点击甚至购买该物品，根据用户的行为将给出不同的奖励。状态转移概率P：状态的转移主要根据推荐的物品和用户的反馈来