强化学习——day17 读论文：基于强化学习动态规划的城市多路径规划模型（2022 Q1 外）

最新推荐文章于 2023-09-11 09:36:40 发布

想太多!

最新推荐文章于 2023-09-11 09:36:40 发布

阅读量617

点赞数

分类专栏：强化学习文章标签：动态规划人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43537420/article/details/126825232

版权

强化学习专栏收录该内容

10 篇文章 6 订阅

订阅专栏

基于强化学习动态规划的城市多路径规划模型（2022 Q1 外）

导图和md文件下载

chap0 介绍了一些解决路线规划问题的确定性和启发性方法

chap1 基于模型的RL方法的原理

原理：基于模型的RL被转化为DP问题或最优控制问题在已知环境下，与无模型的算法相比，DP算法具有较高的效率和较强的泛化性，因为不必要的探索较少。因此，本文采用DP算法

策略迭代：策略迭代是DP的一个重要解决过程，包括策略评估和改进。如图所示，策略迭代从随机策略开始，然后计算Vπ（s）以评估该策略。然后，采用贪婪策略对该策略进行改进。重复此过程，直到策略收敛。

chap2 multi-route dynamic programming (DP) model(多路径动态规划（DP）模型)

1）路线环境建模：使用无向图来表示道路网络

2）强化学习元素：状态、动作、状态转移概率、奖励函数

3）策略迭代：包括两部分

① 初始化状态值函数
② 策略评估

策略迭代算法代码

4）Alternative Path Exploration（非传统路径探索）：经典路线规划算法（Dijkstra或A∗) 只输出一个结果，这会导致拥塞漂移问题。通过提供替代路径，我们的方法可以缓解这个问题。

chap3 实验和结果

1）实验设置：城市：深圳，在删除不可用道路、存储道路属性和建立拓扑关系后，预处理的深圳道路网络如图所示

2）评价指标：用行程时间作为计划路线的评价指标

3）测试场景：随机选择20个源—目的地对（origin-destination pairs），将本文的方法与Dijkstra算法进行比较

4）实验结果：

① 本文的方法的最佳结果与Dijkstra的结果一致，这意味着我们的方法有可能在不同场景下找到最佳结果
② 此外，本文的方法生成了两条或三条具有可比时间成本的备选路线（Dijkstra只输出一个最优结果），这可以缓解由单个结果引起的拥塞漂移问题。
③ 证明了无论道路网络有多密集，我们的模型都能满足现实应用中驾驶员的响应时间要求，具有很好的应用价值

路线规划结果：显示了本文方法规划的路线的行程时间相对于Dijkstra算法结果的百分比（最佳结果由红框标记）

本文方法与处理两种不同的道路网络密度

时间成本小于1s在实际应用中仍然可以接受

正常道路网络

简化道路网络

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。