文献阅读11期:A Deep Value-network Based Approach for Multi-Driver Order Dispatching

[ 文献阅读 ] A Deep Value-network Based Approach for Multi-Driver Order Dispatching [1]推荐理由:滴滴Oral论文,新提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单应用,在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在滴滴平台的在线AB实验证明,这种基于深度强化学习的派单算法相比现有最好的方法能进一步显著提升平台各项效率及用户体验。参考文献[1
摘要由CSDN通过智能技术生成

[ 文献阅读 ] A Deep Value-network Based Approach for Multi-Driver Order Dispatching [1]

推荐理由:滴滴Oral论文,新提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单应用,在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在滴滴平台的在线AB实验证明,这种基于深度强化学习的派单算法相比现有最好的方法能进一步显著提升平台各项效率及用户体验。

1. 半马尔科夫决策(SMDP)建模

  • 在本文框架内,一个接单司机只会在一个离散时间段的末尾随机地和框架产生交互。
  • 每个时间步t中,通过向量 s t ∈ S s_{t} \in \mathcal{S} stS告知司机当前状况,并且在此基础上作出接单或路径选择 o t ∈ O s t o_{t} \in O_{s_{t}} otOst
  • 作为响应,环境对每一步中间步骤 i = 1 , … , k o t i=1, \ldots, k_{o_{t}} i=1,,kot,会产生一个奖励 r t + i r_{t+i} rt+i。期望的选择奖励可以表达为:
    r s t O : = E { r t + 1 + γ r t + 2 + … + γ k o t − 1 r t + k o t ∣ s t = s , o t = o } where  1 ≥ γ > 0 r_{s t}^{O}:=E\left\{r_{t+1}+\gamma r_{t+2}+\ldots+\gamma^{k_{o t}-1} r_{t+k_{o t}} \mid s_{t}=s, o_{t}=o\right\}\\ \text{where } 1 \geq \gamma>0 rstO:=E{ rt+1+γrt+2++γkot1rt+kotst=s,ot=o}where 1γ>0
  • 状态State s t s_{t} st的组成: s t : = ( l t , μ t , v t ) s_{t}:=\left(l_{t}, \mu_{t}, v_{t}\right) st:=(lt,μt,vt),其中 l t l_{t} lt代表地点(Location), μ t \mu_{t} μt代表生时间戳 v t v_{t} vt代表当前时间地点的上下文特征向量。
  • 选择Option o t o_t ot 代表着计算机推演的,一个司机作出选择后的时空结果预测(说人话就是电脑要看你这个司机的这个路线选择和驾驶品质会有怎样的结果,博主自己猜的)
  • 接单这种行为就可以理解为:在 s t s_{t} st执行 o t o_t ot
  • 奖励 Reward R t R_{t} Rt,本文指代一单下来,从 s t s_{t} st s t ′ s_{t'} st,执行 o t o_t ot之后,客户付款的总额。如果司机处于等单子的idle状态,那Reward肯定就是0了。奖赏链还包含了一个折扣因子 γ \gamma γ,整个奖励链表达如下: R ^ t = r t + 1 + γ r t + 2 + … + γ k t − 1 r t + k t \hat{R}_{t}=r_{t+1}+\gamma r_{t+2}+\ldots+\gamma^{k_{t}-1} r_{t+k_{t}} R^t=rt+1+γrt+2++γ
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值