论文:Jointly Learning to Recommend and Advertise
链接:https://arxiv.org/pdf/2003.00097
作者:msu+头条
预备知识
强化学习:假定一个智能体(agent),在一个未知的环境中(当前状态state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。
提出问题
- 大多数平台将推荐和广告业务由不同的团队分开优化,这样可能降低整体性能
- 优化的目标都是short term reward,比如点击率、观看时长,很难对long term reward建模
论文目的
- 设计一个两级强化学习框架,联合优化推荐和广告策略。第一级得到推荐结果来优化用户长期体验,第二级在推荐list中插入广告,来平衡来自广告商的即时广告收入和对用户长期体验产生的负面影响。
- 利用MDP(马尔可夫决策过程)的思想,两级强化学习框架RS和AS,与环境(用户)交互,产生rec-ad混合列表,并且使得累积反馈最大化。
MDP(S,A,P,R,r):
- S t S_t St——状态空间,包括时间t之前,用户浏览的所有推荐item和ad,以及时间t请求的上下文环境,AS的状态还包括RS产生的时间t的推荐list。
- A t A_t At——动作空间, a t = ( a t r s , a t a s ) at=(at^{rs},at^{as}) at=(atrs,atas),即RS的动作和AS的动作,RS的动作主要是生成推荐list, AS的动作包含三个有内在关联的动作(1,是否插入广告;2,插入哪个广告;3,在哪个位置插入广告)。
- R t R_t Rt——反馈,在状态st,执行动作at之后,用户会浏览到推荐的list和ad, 并且给出即时反馈 r t ( s t , a t r s ) 和 r t ( s t , a t a s ) rt(st,at^{rs})和rt(st,at^{as}) rt(st,atrs)和rt(st,atas).
- P P P——转移概率, P ( s t + 1 ∣ s t , a t ) P(s_{t+1}|s_t, a_t ) P(st+1∣