读论文笔记——Jointly Learning to Recommend and Advertise

论文:Jointly Learning to Recommend and Advertise

链接:https://arxiv.org/pdf/2003.00097

作者:msu+头条

预备知识

强化学习:假定一个智能体(agent),在一个未知的环境中(当前状态state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

提出问题
  1. 大多数平台将推荐和广告业务由不同的团队分开优化,这样可能降低整体性能
  2. 优化的目标都是short term reward,比如点击率、观看时长,很难对long term reward建模
论文目的
  1. 设计一个两级强化学习框架,联合优化推荐和广告策略。第一级得到推荐结果来优化用户长期体验,第二级在推荐list中插入广告,来平衡来自广告商的即时广告收入和对用户长期体验产生的负面影响。
  2. 利用MDP(马尔可夫决策过程)的思想,两级强化学习框架RS和AS,与环境(用户)交互,产生rec-ad混合列表,并且使得累积反馈最大化。
    MDP(S,A,P,R,r):
  • S t S_t St——状态空间,包括时间t之前,用户浏览的所有推荐item和ad,以及时间t请求的上下文环境,AS的状态还包括RS产生的时间t的推荐list。
  • A t A_t At——动作空间, a t = ( a t r s , a t a s ) at=(at^{rs},at^{as}) at=(atrs,atas),即RS的动作和AS的动作,RS的动作主要是生成推荐list, AS的动作包含三个有内在关联的动作(1,是否插入广告;2,插入哪个广告;3,在哪个位置插入广告)。
  • R t R_t Rt——反馈,在状态st,执行动作at之后,用户会浏览到推荐的list和ad, 并且给出即时反馈 r t ( s t , a t r s ) 和 r t ( s t , a t a s ) rt(st,at^{rs})和rt(st,at^{as}) rt(st,atrs)rt(st,atas).
  • P P P——转移概率, P ( s t + 1 ∣ s t , a t ) P(s_{t+1}|s_t, a_t ) P(st+1
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值