java派单策略_滴滴KDD2018：强化学习派单

最新推荐文章于 2023-09-07 07:30:00 发布

半木zxy

最新推荐文章于 2023-09-07 07:30:00 发布

阅读量697

点赞数

文章标签： java派单策略

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36330888/article/details/114920748

版权

本文解析了滴滴KDD2018中如何使用强化学习进行派单策略优化。通过离线学习计算时空网格的预期收入，动态规划求解预期值函数。在线规划阶段，利用匹配度公式决定订单与司机匹配，并采用AB测试评估方案。强化学习方法在所有城市中提高了全局GMV和完成率，同时保持了用户体验。

摘要由CSDN通过智能技术生成

白话解读

离线learning部分

本质上是将任意时刻任意空间位置离散化为时空网格，根据派单记录(含参加调度但无单的司机)计算该时空网格到当天结束时刻的预期收入。

关键问题：怎么计算预期收入？

动态规划思路：假设总共有时刻区间为[0, T)；先计算T-1时刻的所有网格的预期收入(此时未来收入为0，只有当前收入)，其本质就是计算当前收入的均值；然后计算T-2时刻的所有网格的预期收入；...；以此类推

这样的话，就可以计算出每个时空网格到当天结束时刻的预期收入。

重点：为什么按照这个方式得到的值函数是合理的？

The resultant value function captures spatiotemporal patterns of both the demand side and the supply side. To make it clearer, asa special case, when using no discount and an episode-length of a day, the state-value function in fact correspo

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java派单策略_滴滴KDD2018：强化学习派单

白话解读离线learning部分本质上是将任意时刻任意空间位置离散化为时空网格，根据派单记录(含参加调度但无单的司机)计算该时空网格到当天结束时刻的预期收入。关键问题：怎么计算预期收入？动态规划思路：假设总共有时刻区间为[0, T)；先计算T-1时刻的所有网格的预期收入(此时未来收入为0，只有当前收入)，其本质就是计算当前收入的均值；然后计算T-2时刻的所有网格的预期收入；...；以此类推这样的话...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。