强化学习——day17 读论文:基于强化学习动态规划的城市多路径规划模型(2022 Q1 外)

基于强化学习动态规划的城市多路径规划模型(2022 Q1 外)

导图和md文件下载

点击下载

chap0 介绍了一些解决路线规划问题的确定性和启发性方法

chap1 基于模型的RL方法的原理

原理:基于模型的RL被转化为DP问题或最优控制问题在已知环境下,与无模型的算法相比,DP算法具有较高的效率和较强的泛化性,因为不必要的探索较少。因此,本文采用DP算法

策略迭代:策略迭代是DP的一个重要解决过程,包括策略评估和改进。如图所示,策略迭代从随机策略开始,然后计算Vπ(s)以评估该策略。然后,采用贪婪策略对该策略进行改进。重复此过程,直到策略收敛。

chap2 multi-route dynamic programming (DP) model(多路径动态规划(DP)模型)

1)路线环境建模:使用无向图来表示道路网络

2)强化学习元素:状态、动作、状态转移概率、奖励函数

3)策略迭代:包括两部分

① 初始化状态值函数
② 策略评估

策略迭代算法代码

4)Alternative Path Exploration(非传统路径探索):经典路线规划算法(Dijkstra或A∗) 只输出一个结果,这会导致拥塞漂移问题。通过提供替代路径,我们的方法可以缓解这个问题。

chap3 实验和结果

1)实验设置:城市:深圳,在删除不可用道路、存储道路属性和建立拓扑关系后,预处理的深圳道路网络如图所示

2)评价指标:用行程时间作为计划路线的评价指标

3)测试场景:随机选择20个 源—目的地对(origin-destination pairs),将本文的方法与Dijkstra算法进行比较

4)实验结果:

① 本文的方法的最佳结果与Dijkstra的结果一致,这意味着我们的方法有可能在不同场景下找到最佳结果
② 此外,本文的方法生成了两条或三条具有可比时间成本的备选路线(Dijkstra只输出一个最优结果),这可以缓解由单个结果引起的拥塞漂移问题。
③ 证明了无论道路网络有多密集,我们的模型都能满足现实应用中驾驶员的响应时间要求,具有很好的应用价值

路线规划结果:显示了本文方法规划的路线的行程时间相对于Dijkstra算法结果的百分比(最佳结果由红框标记)
本文方法与处理两种不同的道路网络密度

时间成本小于1s在实际应用中仍然可以接受

正常道路网络
简化道路网络
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值