Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning

总结

多场景(tb主搜、店铺搜)rank,每个场景1个actor。整体架构:2个communication component(lstm),1个critic,2个actor。用公共的critic来控制协调,用lstm来保证actor可以获取之前的trajectory来学习

细节

L2R:point-wise, pair-wise, list-wise
DDPG,actor-critic:actor: a t = μ ( s t ) a_t = \mu(s_t) at=μ(st),critic: Q ( s t , a t ) Q(s_t, a_t) Q(st,at)
DRQN,partially-observable,rnn对前面的obs编码,预测 Q ( h t − 1 , o t , a t ) Q(h_{t - 1}, o_t, a_t) Q(ht1,ot,at)而不是 Q ( s t , a t ) Q(s_t, a_t) Q(st,at)
MARL:多个agent,同时take action。fully cooperation agents & fully competitive agents

整体架构
在这里插入图片描述
公用的critic,单独的actor,单独的communication component(lstm),lstm的 x t x_t xt是当前场景下的 [ o t , a t ] [o_t, a_t] [ot,at]

actor架构
在这里插入图片描述

实验

评估指标:GMV gap, G M V ( x ) − G M V ( y ) G M V ( y ) \frac{GMV(x) - GMV(y)}{GMV(y)} GMV(y)GMV(x)GMV(y)

GMV/Gross Merchandise Volume,商品交易总额

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值