【论文解读】滴滴智能派单-KDD2018 Large-Scale Order Dispatch in On-Demand Ride-Hailing

最新推荐文章于 2024-08-08 18:38:37 发布

Scc_hy

最新推荐文章于 2024-08-08 18:38:37 发布

阅读量1k

点赞数

分类专栏：笔记文章标签：强化学习人工智能

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.csdn.net/Scc_hy/article/details/123367989

版权

笔记专栏收录该内容

9 篇文章 3 订阅

订阅专栏

《Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach》

一、简介

基于大量历史数据，构建一个大Q表,用于订单的评估，满足乘客的需求的同时，兼顾平台的长期价值，最终提升平台的收入。

二、背景

从司机抢单到平台派单，使得平台的收入提升了10%。

对于派单，需要对司机和订单进行高效的组合。之前大家都是基于一些在线策略(会在一定时间将司机和订单放到一个bucket里，然后进行分配)，虽然有效但是并不高效。

本文的目的是期望将配对的过程更加高效，更加注意平台的长期价值，并最终提升平台的收益。

三、模型框架

3.1 一些定义

State:

简化司机的状态 s=(t, g), t-为时间戳, g-地理位置(h3no)

Action:

1)司机接单，进行服务；
2)司机空闲, 在某地长时间闲置( s=(t, g) -> s'=(t', g))
3)司机空闲, 且在游走(论文中不包含)

Reward:

1)action-1 订单的价格
2)action-2 0

Discout factor(

\gamma

):

将奖励基于时间段拆分成T段，基于折扣系数衰减累加

R_{\gamma}=\sum_{t=0}^{T-1}{\gamma ^ t \frac{R}{T}}

3.2 策略及状态更新

action-1
$V(s_t) = V(s_t) + \alpha[G_t - V(s_t)] \\ \\ G_t = R_t + \gamma V(s_{t+1}) \\ \\ R_t = 0$

action-2
$V(s_t) = V(s_t) + \alpha[G_t - V(s_t)] \\ \\ G_t = R_t + \gamma^{\Delta t} V(s_{t+\Delta t}) \\ \\ R_t = R_{\gamma}$

关于学习率— $\alpha$

可以设定固定值
也可以设定为一个递减的值(论文用该方法)
- 用 $\frac{1}{N(s_i)}$ , $N(s_i)$ 为该状态的迭代次数

四、优化与使用

4.1 优化目标

$argmax_{a_{ij}}\sum_{i=0}^m\sum_{j=0}^nQ_{\pi}(i, j)a_{ij}$
注:

$Q_{\pi}(i, j)$ : 订单i被司机j接起的价值
$a_{ij}$ : 订单是否被接起
i: 当前时间所有可接单司机
j: 当前时间所有订单

用KM算法去优化获取最佳组合, $Q_{\pi}(i, j)$ 作为边权重。

4.2 实际使用

$Q_{\pi}(i, j)$ 相当于评估从出发地到达目的地，给平台的带来的长期价值：
$Q_{\pi}(i, j)=A_{\pi}(i, j)=G \\ \\ G = R_t + \gamma^{\Delta t} V(s_{t+1}) \\ R_t = R_{\gamma} = \sum_{t=0}^{T-1}{\gamma ^ t \frac{R}{T}}$
注:

需要用到订单预估时长
需要用到订单预估价格

五、训练与使用

结合 section-3 和 section-4

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Scc_hy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。