论文解析:Deep Reinforcement Learning for List-wise Recommendations

论文解析:Deep Reinforcement Learning for List-wise Recommendations

简介

京东在强化学习推荐系统方面的工作

背景

推荐系统存在的问题:

  • 无法通过与用户的交互建模用户的动态兴趣变化
  • 最大化单次ranking的最大收益,未必是长期的全局最大收益
  • ranking过程忽略了item之间的关联

方法

强化学习

强化学习基于马尔科夫决策过程(MDP),一个马尔科夫决策过程用一个五元组(S, A, P, R, gamma)表示.

  • S: 状态空间定义为用户的浏览历史,即推荐之前,用户点击或购买的最新的N个物品
  • A: 动作空间定义为要推荐给用户的状态列表
  • P: 状态转移概率
  • R: 给出推荐列表后根据用户的反馈(点击、购买)得到的奖励
  • gamma: 折扣因子

仿真器

由于强化学习是对系统-用户交互状态转移的动态建模,因此无法像监督学习一样使用静态数据集训练,而是需要一个交互式仿真环境。搭建推荐系统仿真器,是本文一个很大的贡献。
本文用历史上的session日志信息构建仿真器的memory,将用户的行为转化为强化学习环境需要的(s, a) -> r对。
有了一定数量的memory之后,对于memory中没有出现的那些(s, a)对的r值,根据计算该(s, a)对与memory中的相

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值