【论文阅读】Learning List-wise Representation for Ads Allocation with Multiple Auxiliary Tasks


在这里插入图片描述
美团22年cikm中的一篇关于浮动广告位的paper。核心思路是在offline的强化学习训练中引入辅助任务来帮助模型学习到更有效的表示。

问题建模

和CrossDQN类似的场景,也是建模为马尔可夫决策过程。

  • state 状态空间包括输入有:广告list,自然侧item list。user的特征,user的行为序列。上下文特征。
  • action 行为空间就是01序列,表示当前位置是否放置广告。这里放置广告不会改变原本提供的广告list的顺序。
  • reward定义:
    在这里插入图片描述
    包括: r a d r^{ad} rad表示广告的费用, r f e e r^{fee} rfee表示平台服务费, r e x r^{ex} rex表示用户体验得分(下单为2,点击为1,退出则为0)
    可以理解的含义为,在某一状态下,为用户提供一组混合广告和自然侧item的排列(action),对应的奖励是什么,用户会采取什么样的行为。

方法流程

在这里插入图片描述
base agent 用于根据当前输入的state和action,生成对应的list-wise的表示,然后利用这个表示取计算Q值。
三个辅助任务则用来加速list-wise表示的学习。

base agent 获得list-wise表示

  1. 将state中的特征,都经过embedding,如果是单独的就获得对应的embedding [dim],如果是list的特征就获得seq的embedding [seq_len,dim]。

  2. 对于ad和oi list中的每一个item,对应的嵌入表示构成为:当前的item的初始嵌入表示和user的行为序列经过attention,然后拼接上其他的嵌入,经过一个mlp获得最终的item的表示。如公式所示:
    在这里插入图片描述

    get序列表示还是得靠attention啊。这里query为当前的item,而key和value应该是user行为序列的初始表示。

  3. 根据当前输入的action,可以将oi和ad list进行排列,将表示排列后concat起来可以作为当前action所反应的list的表示。所谓的list-wise表示
    在这里插入图片描述

  4. list-wist表示经过一个mlp获得q-value
    在这里插入图片描述

重构辅助任务 RAT

作者认为user对一些item特征尤其关注,在美团场景下,比如配送费、折扣活动等。选择m个用户最关心的特征来作为重构任务的label。目的是在提供list-wise的表示以后,通过一个decoder(实现起来是一个mlp),将这个list中的item这些相关的特征都重构出来。比如当前list中第1位、第3位、第4位的item是免配送费的,就会让decoder将这个特征解码出来。特征都建模为2进制的,所以都是分类任务。对应的loss就是CE loss
在这里插入图片描述
在这里插入图片描述

预测辅助任务 PAT

  • 目的:用监督信号来引导强化学习的训练,否则在数据稀疏的情况下很难有效对强化学习中的状态空间进行探索。
  • 监督信号:两种行为,点击和下滑。点击是可以带来正反馈的行为,基于点击能够计算reward;下滑个人感觉是带来了状态的转变,相当于一个新的request?来到了一个新的状态。但文中写的是“the latter determines whether the trajectory terminates.” 决定轨迹是否终止。
  • 点击预测任务: 输入编码后的list状态 e l i s t e^{list} elist,输出大小为k,表示对当前list中k个item预测是否会被点击。预测也是通过一个mlp来实现。loss采用CE loss。
  • 下滑预测任务: 通过对下滑的可能预测,来表示当前list的表示对后续请求的影响,感觉这个任务好像在指导训练更好的状态转移函数。输入还是当前list的状态 e l i s t e^{list} elist,输出大小为1,表示对当前list用户是否会下滑的预测,还是经过一个mlp来预测。loss为CE loss。
    在这里插入图片描述
  • 最终目的:这些引入监督信号的预测任务,直接优化list的表示 e l i s t e^{list} elist,能够帮助 e l i s t e^{list} elist学的更好(对表示学习的一种引导),训练更鲁棒并加快收敛。
    在这里插入图片描述
    mlp4 是 click预测任务
    mlp5 是下滑预测任务

对比学习辅助任务 CLAT

对比学习思想,拉近相似的状态的表示,推远不同状态的表示,让表示更有区分度。
在这里插入图片描述

  • 正负样本构造:
    • 正样本思路:当在user的视野内,user对当前的展示进行了操作(点击等),则对于后续没出现的item,认为对user的影响不大,因为user都没看到。也就是认为出现在user视野中的item应该更能代表当前list的状态。所以将后续的item进行替换,从而构造正样本。如图所示:
      在这里插入图片描述
    • 负样本: 就是随机采样别的request。
  • 训练loss -> 对比学习loss与相似度计算公式,就是cos相似度:
    在这里插入图片描述
    在这里插入图片描述

训练过程

离线训练总loss由base agent的强化学习loss和三个辅助任务对应的loss加权求和而成。其中base agent就是采用q-learning的方式进行loss计算。
在这里插入图片描述
在这里插入图片描述
线上推理就是根据当前state计算各种行为后的Q值,然后选择最大收益的action。

问题:这里各种行为,包括多少种?如果是对oi/ad list 排列的全部的话,应该是很大的数量。而且浮动广告的插入还要满足一些约束条件,比如个数、间隔、最高广告出现的位置等。对于当前state的action集合的生成感觉可以满足这些限制条件进行一定的筛选,但感觉整个action空间还是很大,这一步到底咋整的?

小小总结

辅助任务除了对比学习以外,感觉核心思路还是要引入监督信号来帮助学习更有效的表示,并引导强化学习的训练。重构任务和预测任务简单理解分别从item的属性和user的行为来引入了监督信号,帮助 e l i s t e^{list} elist的学习。

实验结果

在这里插入图片描述

  • 从消融实验来看,预测任务和对比学习任务带来的增益更大。user的行为监督信号更有效,同时也反映对比学习在表示学习中的作用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值