强化学习——day35 读论文:基于深度强化学习的网约车动态路径规划

资源下载地址

点击下载

chap2


o

2.1 问题叙述

o
网约车队 X、请求 Ω、调度中心、拒绝率 RR
o
o

2.2 ST-GCSL 框架

o
o

o
网约车、乘客在调度中心下的交互
o
o

2.3 Markov 决策过程的构建

o

2.3.1 具体描述


将网约车视为与外部环境交互的智能体,并将每次路线规划看作是一次决策. 采用六边形网格划分空间对动作空间进行离散化.

2.3.2 关键元素


1)状态st ∈S
2)动作at ∈A
3)奖励r
4)回合
5)策略π(a|s)
6)状态—动作价值函数Qπ (s,a)

chap3 供需感知的深度强化学习算法


o

3.1 动作空间的确定

o

1)地理邻居网格:.为了确保合理的调度距离, 选择当前网格的邻居网格.


2)全局热门网格:.在下一个时间片中预测请求 数量最多的少数网格

o

3.2 AC模型

o


算法1.AC算法.

o

3.3 动作采样策略

o

基于排序的优先级

o

3.4 AS-AC 算法

o

输入:当前状态st;
输出:一个调度动作at
① 计算源动作价值Q
② 初始化动作空间A为地理邻居和全局热门 网格;
③ 从A移除无效的动作;
④ 初始化大小为|G|的数组F,并设置Fi =l , ∀ai∈A;
⑤ 通过状态—动作价值Q x F 对动作ai进行排序,并计算对应优先级
⑥ 根据式(12)采样一个动作 at
⑦ return at

chap4 实验与结果


o

4.1 数据集(表2)

o
数据集统计信息(纽约&海口)
o
o

4.2 度量标准

o
1)拒绝率 RR
2)巡航时间 CT
3)等待时间 WT
o


拒绝率

o

4.3 实验结果(表3)

o
除了在网约车数量为1 000的海口数据集 上,提出的 AS-AC算法在所有度量标准上均实现了最佳的效果,提升程度最大
o
o

4.4 采用排序优先级的优越性

o

chap5 主要贡献


o
1)提出了一个基于实时供需状态的动态网约 车路径规划框架,实现高效的大规模空闲网约车 调度,通过包含实时的供需信息来适应动态变化的 环境。
o
o
2)设计了一种带有动作采样的AS-AC算法来 选择可行的动作,增加了动作选择的随机性,从而有 效地防止竞争。
o
o
3)使用真实的网约车订单数据进行了大量实 验,实验结果表明提出的方法相比对比方法有着更 低的请求拒绝率。
o

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值