推荐系统论文:A Model-based Multi-Agent Personalized Short-Video Recommender System

  • 摘要:

  • 主要内容:

        本篇论文主要用于缓解推荐过程中的样本选择偏差(SSB)。在每个在线请求中,推荐器选择并向用户呈现top - K个项目,并且一个推荐会话由多个连续的请求组成。推荐会话建模为Markov decision process,并通过强化学习(RL)框架进行求解。

 在本文中,提出了一个基于RL的工业短视频推荐排序框架,该框架通过多代理协作的形式,在用户多方面偏好的环境中建模并最大化用户观看时间(WatchTime)。此外,我们提出的框架采用基于模型的学习方法来缓解样本选择偏差,这是工业推荐系统中一个关键但棘手的问题。

  • 名词解释:

        1.Markov decision process和强化学习(RL):https://blog.csdn.net/november_chopin/article/details/106589197

        2.样本选择偏差(SSB):https://www.shangyexinzhi.com/article/523818.html

  • 引言:

  • 主要内容:

        用户对于推荐视频的反馈主要包括WatchTime、关注、喜欢、评论等,本文的主要目标是优化一个会话中累计的WatchTime,其他显式的交互是辅助目标。在进行推荐的时候WatchTime与其他显式交互不只是竞争关系,例如,如果用户对视频进行评论,他往往会花费更长的时间观看这段视频等。WatchTime与其他交互之间可以发现更多的协作关系。因此提出了一个多Agent推荐排序框架,该框架引入了一个协作环境,在该环境中,多个智能代理组件,每个最大化不同的用户偏好,共同工作,以更有效地处理一个会话中累积观看时间最大化的主要目标。

        在真实的行业推荐中,最实用和最常用的方法是从用户反馈的记录印象中离线构建推荐代理,因为通过与真实用户交互进行在线策略学习通常会损害用户体验。仅使用离线记录的印象又不可避免地导致样本选择偏差( SSB ) 。因此也可以记录没有用户反馈的非印象样本。

  •  方法:

        基于模型的多智能体排名框架(MMRF)

  • Preliminary:

        本文设置多个智能体的目标是为了通过协作的形式将WatchTime最大化,取N个代理,第^{_{}}^{N_{th}^{}}为agent最大化WatchTime,其余N-1个agent为其他用户偏好分配的辅助目标。取S为状态,S包括所有agent共享的用户配置文件、行为历史、请求上下文、候选项目特征。取A=[A^{1},...,A^{^{N}}]为动作集,其中a^{_{i}}\epsilonA^{i}作为agent i生成的项目得分列表,用来确定所有候选项目排名。取R=[R^{1},...,R^{N}]为奖励,用来描述每个偏好的维度。目标:MAX(\sum_{t=0}^{T}\gamma ^{t}r^{N}_{t}),其中T是时间范围,\gamma是折扣因子,r_{t}^{N}是用户第t轮的WatchTime。

  • 多agent协作框架:
    • 注意力协作机制:

                从辅助的agent中聚合出有益信息,从而做出更好的行动规划。

                首先对于WatchTime的agent i_{th},从其余N-1个agent聚合出有益信息e_{t}^{i}

                 其中h_{t}^{i}是对应i_{th}的嵌入状态,权重a_{j}表示的是通过多头注意力机制计算出来的agent i和agent j之间的相似度,其中W_{q}是将i_{th}的嵌入状态转换为“查询”,W_{k}是将i_{th}的嵌入状态转换为“键”,W_{v}是将i_{th}的嵌入状态转换为“值”。(此处不解可参考:https://blog.csdn.net/ddzr972435946/article/details/122461550

                其次根据观察到的状态s_{t}以及上面计算的e_{t}^{i},求出第k个辅助agent排序动作(决策结果):

a^{k}_{t}=\pi _{\theta _{k}}(s_{t})=f_{i}(h^{k}_{t},e^{k}_{t})              (2),

其中f_{i}(\cdot )采用多层感知器,并生成排序分数以满足辅助目标。

                最后WatchTime代理收到所有辅助agent的决策信息后,通过动作a_{t}^{N}做出决策:    

                其中\Theta =\{​{\theta _{i}}\}_ {i=1...N}是N个动作的参数集合,不仅具有多方面偏好的中间决策知识e_{t}=[e^{1}_{t},...,e_{t}^{N}],还集成了N-1个辅助智能体的直接决策结果a_{t}^{-N}=[a_{t}^{1},...,a_{t}^{N-1}]

  •  策略学习:         

                由于动作空间是连续的,所以采用了确定性策略梯度算法(DPG,具体算法可参考:https://blog.csdn.net/hba646333407/article/details/105584029),对于带有行为\pi _{\theta _{i}}的agent i,要考虑重放缓冲区D_{i}中的样本(s_{t},a_{t}^{i},r_{t}^{i},s_{t+1}),值函数Q_{\phi _{i} }的估计是用时差的误差:

 并且通过全局最大化这个值函数Q_{\phi _{i} }来更新动作\pi _{\theta _{i}}

                第 𝑡 轮的梯度更新可表述如下:

  •  基于非印象样本的模型学习方法:

        为了解决 SSB 问题,我们在策略学习过程中引入了非印象样本。为了避免效率问题,我们从完整的非印象样本中随机抽取一个子集,大约选取 25% 的样本。此外,我们还建立了一个拟合模型,为这些样本分配用户反馈。

         用户反馈模拟模型采用递归神经网络,对用户状态s_{t}的转换进行顺序建模。由于用户反馈有多个方面,我们利用多头输出,每个头通过最小化均方误差来拟合用户反馈的特定方面:

         其中,r_{t}^{p_{i}}=M(s_{t},a_{t}^{i},\eta )是以𝜂为参数的模型预测。这样,就可以模拟非印象样本的奖励。

         为了估算不确定性,我们将模型扩展为连体结构,两个并行的预测器r_{t}^{p_{i}}r_{t}^{p_{i}^{'}}共享上述相同的优化目标我们对其中一个预测因子应用剔除层,增加它们之间的差异。这样,不确定性就可以估算为:p_{t}^{i}=(r_{t}^{p_{i}},1-r_{t}^{p_{i}})p_{t}^{'i}=(r_{t}^{p_{'i}},1-r_{t}^{p_{'i}})。我们将不确定性正则化为KL差分exp(\lambda \cdot KL(P_{t}^{i}||P_{t}^{'i}) )。因此,非印象样本的奖励可以模拟为:

  •  实验:

  • 离线实验:
    • 数据集:

                包含一个公共数据集和一个真实收集数据集。

                公共数据集:KuaiRand1K,收集自一个著名的视频共享移动应用程序,适合用于 RL 方法的离线评估。采用数据预处理方法:按时间顺序将同一用户的日志串联起来,形成轨迹。

                真实收集数据集:该数据集是我们的大型视频共享平台一周内收集的流量日志,包括 18 亿用户与 10 亿视频之间的 2 450 亿次互动。按时间顺序串联的同一会话日志构成了一个轨迹。     

  • 评估指标:           

                 我们使用归一化上限重要性抽样(NCIS)方法来评估不同的策略,这是推荐系统中基于 RL 方法的标准离线评估方法。我们还用 GAUC 对我们的方法进行了评估,GAUC 是推荐排名模型中常用的指标 。

  • 基线:

                工业上常用的方法:

                BC:有监督的行为克隆

               Wide&Deep和DeepFM:在印象形成信号的监督下,通过用户反馈的加权和对样本进行加权。

                多目标/多agent RL方法:

                Pareto:作为一种为推荐系统找到Pareto最优解的多目标RL算法。

                TSCAC:作为一种两阶段多准则算法,在最大化主响应的同时满足其他辅助响应的约束。

                MASSA:作为一种多智能体算法,该算法采用一个信号网络来处理多个评论者发送的消息,并提取对每个评论者有用的信息。

                MMRF-CO:没有细心的协作机制,只是一个简单的级联。

                MMRF-DA:未经非印象样本学习的MMRF.

                MMRF-NS:用负的持续奖励来处理非印象样本.

                MMRF:本实验的模型。

  • 实验结果:

  • 线上A/B测试:
  • 设置:

         对于主要目标,我们观察用户在视频上花费的平均总时间量,称为观看时间( WatchTime )。一个会话中观看视频的总数量(简称深度)和显式交互的总数量(关注与评论)也可以说是用户满意度。

        实验细节:我们用有监督的排序学习( LTR ) 基线来补充我们的评估,并以TSCAC作为替代。

 

  •  总结:

        代码和数据集并没有公示。

  • 22
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值