辅助读懂Reinforcement Learning for Slate-based Recommender Systems

基础知识准备

强化学习入门简单实例 DQN
强化学习入门 第一讲 MDP
随笔分类 - 0084. 强化学习

中文翻译

强化学习RL应用在youtube推荐系统 2019谷歌论文解读

强化学习应用k推荐的问题

slate在文中的意思大概就是一次性推荐k个item给用户。由于是k个item的组合,动作空间是非常大的。
在这里插入图片描述

Choice Model

在本文的强化学习中使用到了choice model模型的技巧。简单来说choice model就是预估用户在推荐的动作A中选择某个item的概率。
在这里插入图片描述
在这里插入图片描述

Slate-Q的分解

因为动作空间过大,文中对Slate-Q进行了分解。
在这里插入图片描述
得到q的更新公式:
在这里插入图片描述

Slate优化

前面提到了Slate-Q的分解,以及分解后的q的TD更新方式。那么如何根据这个q值来获得推荐的动作A呢?作者提出三种方式:标准方式、top-k、贪心。
标准方式:
目标函数定义为,注意作者的P是由模型预测出来的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
top-k和贪心:
这两种启发式方法效果也不错。
在这里插入图片描述

伪代码

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值