[ 文献阅读 ] A Deep Value-network Based Approach for Multi-Driver Order Dispatching [1]
推荐理由:滴滴Oral论文,新提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单应用,在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在滴滴平台的在线AB实验证明,这种基于深度强化学习的派单算法相比现有最好的方法能进一步显著提升平台各项效率及用户体验。
1. 半马尔科夫决策(SMDP)建模
- 在本文框架内,一个接单司机只会在一个离散时间段的末尾随机地和框架产生交互。
- 每个时间步t中,通过向量 s t ∈ S s_{t} \in \mathcal{S} st∈S告知司机当前状况,并且在此基础上作出接单或路径选择 o t ∈ O s t o_{t} \in O_{s_{t}} ot∈Ost。
- 作为响应,环境对每一步中间步骤 i = 1 , … , k o t i=1, \ldots, k_{o_{t}} i=1,…,kot,会产生一个奖励 r t + i r_{t+i} rt+i。期望的选择奖励可以表达为:
r s t O : = E { r t + 1 + γ r t + 2 + … + γ k o t − 1 r t + k o t ∣ s t = s , o t = o } where 1 ≥ γ > 0 r_{s t}^{O}:=E\left\{r_{t+1}+\gamma r_{t+2}+\ldots+\gamma^{k_{o t}-1} r_{t+k_{o t}} \mid s_{t}=s, o_{t}=o\right\}\\ \text{where } 1 \geq \gamma>0 rstO:=E{ rt+1+γrt+2+…+γkot−1rt+kot∣st=s,ot=o}where 1≥γ>0 - 状态State s t s_{t} st的组成: s t : = ( l t , μ t , v t ) s_{t}:=\left(l_{t}, \mu_{t}, v_{t}\right) st:=(lt,μt,vt),其中 l t l_{t} lt代表地点(Location), μ t \mu_{t} μt代表生时间戳, v t v_{t} vt代表当前时间地点的上下文特征向量。
- 选择Option o t o_t ot 代表着计算机推演的,一个司机作出选择后的时空结果预测(说人话就是电脑要看你这个司机的这个路线选择和驾驶品质会有怎样的结果,博主自己猜的)
- 接单这种行为就可以理解为:在 s t s_{t} st执行 o t o_t ot。
- 奖励 Reward R t R_{t} Rt,本文指代一单下来,从 s t s_{t} st到 s t ′ s_{t'} st′,执行 o t o_t ot之后,客户付款的总额。如果司机处于等单子的idle状态,那Reward肯定就是0了。奖赏链还包含了一个折扣因子 γ \gamma γ,整个奖励链表达如下: R ^ t = r t + 1 + γ r t + 2 + … + γ k t − 1 r t + k t \hat{R}_{t}=r_{t+1}+\gamma r_{t+2}+\ldots+\gamma^{k_{t}-1} r_{t+k_{t}} R^t=rt+1+γrt+2+…+γ