深度强化学习在移动机器人路径规划上的应用【Gazebo仿真】

一、主要内容

移动机器人的关键技术是路径规划。路径规划技术要求移动机器人在存在障碍物的环境中,能够感知周围事物,并收集信息作为信源,从起始点到目标点,规划出一条不发生碰撞且线路最优的路径。因此。如何使移动机器人在不同的环境下,自主避开障碍物的同时,能够省时高效的到达目标点,是目前机器人自主导航路径规划的研究热点和重要问题。 基于深度强化学习 DRL 的机器人决策控制是人工智能时代下的产物,是机器人自主移动研究中的前沿方向,在研究中取得的成果对于智能机器人的自主导航具有重要的研究意义。本文利用深度强化学习技术对移动机器人路径规划算法问题展开研究,所做内容为未来机器人领域的发展提供了一定的理论意义和应用价值。 

重点内容:基于 DRL 的路径规划算法设计与改进。主要对基于深度强化学习的深度Q 网络进行设计与改进,针对深度 Q 网络过估计问题,选取 DDQN 网络,经过解耦动作选择与动作评估后,为了进一步减缓过估计的问题,提出了 IDDQN 算法,采用优化目标的动作选取策略,改善目标选取 max 的激进操作。接着对于经验池的采样机制做出优化改进,提出了 ARPER 经验池采样机制,设置经验样本进入经验池的基准线,对经验样本进行重新排序,提高优秀样本的采集频率。最后提出了将迁移学习策略引入到所改进的算法训练中,将相同任务在不同环境进行迁移训练,降低数据收集复杂度,来减少训练所需要的时间。 

二、仿真与核心优化过程

网络设计

超参数设置:初始化缓存容量𝑁,折扣因子𝛾,步长为𝐶
输入:初始化 𝐷, 𝑄
for 每一个回合do
初始化环境并获取观测数据𝑆0,对序列预处理𝜙0 = 𝜙(𝑆0)
for 每一个在现有的回合do
通过概率 𝜀选择动作𝐴𝑡
𝐴𝑡 = 𝑚𝑎𝑥
𝑎
𝑄(𝛷(𝑆𝑡 ), 𝑎; 𝜃) 最大 𝑄 值对应的动作
执行𝐴𝑡获得数据、奖励数据𝑅𝑡
if 回合结束, 𝐷𝑡 = 1⁡⁡⁡𝑒𝑙𝑠𝑒⁡𝐷𝑡 = 0
𝑆𝑡+1 = {𝑆𝑡 , 𝐴𝑡 } 并进行预处理 𝜙𝑡+1 = 𝜙(𝑆𝑡+1)
存储状态转移数据(𝜙𝑡 , 𝐴𝑡 , 𝑅𝑡 , 𝐷𝑡 , 𝜙𝑡+1)进𝐷
在 (𝑌𝑖 − 𝑄(𝜙𝑖, 𝐴𝑖 ; 𝜃))
2
上对 𝜃 执行梯度下降步骤。
每𝐶步对目标网络𝑄−进行同步
If epsiod 溢出 break
end for
end for

算法总体流程

初步参数的确认

机器人坐标

仿真过程

优化前后算法对比

博主简介:本人擅长数据处理、建模仿真、程序设计、论文写作与指导,毕业论文、期刊论文经验交流。个人博客kelaboshi.com。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坷拉博士

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值