读论文笔记——Jointly Learning to Recommend and Advertise

最新推荐文章于 2021-08-02 20:09:33 发布

吃辣椒的猪

最新推荐文章于 2021-08-02 20:09:33 发布

阅读量1.8k

点赞数 1

分类专栏：推荐文章标签：算法

本文链接：https://blog.csdn.net/qq_34806485/article/details/105232183

版权

强化学习：假定一个智能体（agent），在一个未知的环境中（当前状态state），采取了一个行动（action），然后收获了一个回报（reward），并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

设计一个两级强化学习框架，联合优化推荐和广告策略。第一级得到推荐结果来优化用户长期体验，第二级在推荐list中插入广告，来平衡来自广告商的即时广告收入和对用户长期体验产生的负面影响。
利用MDP（马尔可夫决策过程）的思想，两级强化学习框架RS和AS，与环境（用户）交互，产生rec-ad混合列表，并且使得累积反馈最大化。
MDP(S,A,P,R,r):

$S_t$ ——状态空间，包括时间t之前，用户浏览的所有推荐item和ad,以及时间t请求的上下文环境，AS的状态还包括RS产生的时间t的推荐list。
$A_t$ ——动作空间， $at=(at^{rs},at^{as})$ ,即RS的动作和AS的动作，RS的动作主要是生成推荐list, AS的动作包含三个有内在关联的动作（1，是否插入广告；2，插入哪个广告；3，在哪个位置插入广告）。
$R_t$ ——反馈，在状态st，执行动作at之后，用户会浏览到推荐的list和ad, 并且给出即时反馈 $rt(st,at^{rs})和rt(st,at^{as})$ .
$P$ ——转移概率， $P(s_{t+1}|s_t, a_t )$

关注