dqn推荐系统_京东:利用DRL算法进行带负反馈的商品推荐

本文介绍了将深度强化学习(DRL)应用于推荐系统的DEERS算法,旨在解决传统推荐系统无法实时捕捉用户兴趣变化的问题。DEERS通过用户与系统的交互,结合正负反馈优化推荐策略,其模型框架包括基本DQN和考虑负反馈的DEERS模型,利用GRU和商品偏序关系提高推荐质量。
摘要由CSDN通过智能技术生成

背景与介绍

大都数传统的推荐系统(协同过滤、基于内容的推荐、learning-to-rank)只是将推荐过程当做一个静态的过程,并且在一段时间内是根据固定的模型来进行推荐。当用户的兴趣发生动态变化时,这些传统方法推荐的内容就不能捕捉到用户兴趣的实时变化。因此本文提出了一种DRL算法,可通过推荐系统和用户不断交互来持续提升推荐质量。

在电商领域,用户有正反馈和负反馈(比如用户点击了商品为正反馈,用户对商品没有任何操作称为负反馈),并且负反馈的数量远远大于正反馈。因此正反馈给模型带来的影响经常被负反馈给“冲刷”掉。本文提出的deep recommender system(DEERS)的算法框架可将正、负反馈同时融入到模型中。

文中将了将RL引入到推荐系统中的两个优势:1. 通过用户与推荐系统的不断交互,可持续更新try-and-error策略,直到模型收敛到最优;2. 在当前状态动作对下,通过带延迟奖赏构造的value值可不断训练推荐模型。对于一个用户来讲,其最优的策略就是最大化该用户的期望累计奖赏。因此推荐系统通过很小的即时奖赏就可筛选出商品。

问题建模

环境:用户 agent:推荐系统

MDP中各元素的定义为:

状态空间S:用户之前的浏览历史,包括点击/购买过的和略过的,二者分开进行处理。同时,物品是按照先后顺序进行排序的。动作空间A:一次只给用户推荐一个物品,那么推荐的物品即动作。即时奖励R:在给用户推荐一个物品后,用户可以选择忽略、点击甚至购买该物品,根据用户的行为将给出不同的奖励。状态转移概率P:状态的转移主要根据推荐的物品和用户的反馈来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值