论文阅读之Virtual-to-real Deep Reinforcement Learning

本文探讨了一种使用异步深度强化学习(ADDPG)训练机器人在无全局障碍图情况下,仅依赖10维稀疏特征和实时位置进行导航的方法。在V-REP仿真环境及真实环境的测试中,经过训练的机器人展现出良好的适应性和导航能力,尤其在未知室内环境中。尽管路径规划不够平滑,但表明强化学习在某些场景下可作为无地图导航的有效方案。
摘要由CSDN通过智能技术生成

论文意义

规划机器人的运动,从当前位置移动到目标位置。
传统方法:基于激光测绘来获得一个全局障碍图(“Simultaneous localization and
mapping: part i),然后对机器人的行为进行规划。
但是问题主要有二:建立全局障碍图比较耗时;对用于测绘的设备精度要求较高。

由于可见光与wifi定位技术的发展,移动机器人可以获得一个实时的相对位置。但在没有全局障碍图的情况下,仅仅有实时位置仍然很难做出全局规划路线。本文提出了,用异步深度强化学习算法来训练机器人在没有障碍图的情况下,仅仅使用十维的稀疏特征值与实时位置就能输出机器人的线速度与角速度,能够从当前位置移动到目标位置。

具体思路

强化学习算法的选择

选用了ADDPG(异步DDPG算法)
因为DQN,NAF,DDPG都利用了经验回放原则,这一类离线学习算法的主要问题是采样效率低,难以大规模采样。

而异步多线程的A3C算法需要多个并行仿真环境,这使其不适用于一些特定的仿真引擎(V-REP)。

另外,DQN不能运用于连续控制,NAF虽然可以运用于连续控制但其参数比DDPG多,所以最终选择了DDPG算法并扩展成异步。

测试有效性

利用开源环境gym中的小例子——Pendulum-v0,测试DDPG与ADDPG采集样本的效率。结果如下:

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值