论文意义
规划机器人的运动,从当前位置移动到目标位置。
传统方法:基于激光测绘来获得一个全局障碍图(“Simultaneous localization and
mapping: part i),然后对机器人的行为进行规划。
但是问题主要有二:建立全局障碍图比较耗时;对用于测绘的设备精度要求较高。
由于可见光与wifi定位技术的发展,移动机器人可以获得一个实时的相对位置。但在没有全局障碍图的情况下,仅仅有实时位置仍然很难做出全局规划路线。本文提出了,用异步深度强化学习算法来训练机器人在没有障碍图的情况下,仅仅使用十维的稀疏特征值与实时位置就能输出机器人的线速度与角速度,能够从当前位置移动到目标位置。
具体思路
强化学习算法的选择
选用了ADDPG(异步DDPG算法)
因为DQN,NAF,DDPG都利用了经验回放原则,这一类离线学习算法的主要问题是采样效率低,难以大规模采样。
而异步多线程的A3C算法需要多个并行仿真环境,这使其不适用于一些特定的仿真引擎(V-REP)。
另外,DQN不能运用于连续控制,NAF虽然可以运用于连续控制但其参数比DDPG多,所以最终选择了DDPG算法并扩展成异步。
测试有效性
利用开源环境gym中的小例子——Pendulum-v0,测试DDPG与ADDPG采集样本的效率。结果如下: