论文阅读之Virtual-to-real Deep Reinforcement Learning

最新推荐文章于 2024-05-24 16:08:52 发布

暖透流年

最新推荐文章于 2024-05-24 16:08:52 发布

阅读量825

点赞数 1

分类专栏：论文笔记文章标签：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ibelieveyouonly/article/details/108500024

版权

本文探讨了一种使用异步深度强化学习（ADDPG）训练机器人在无全局障碍图情况下，仅依赖10维稀疏特征和实时位置进行导航的方法。在V-REP仿真环境及真实环境的测试中，经过训练的机器人展现出良好的适应性和导航能力，尤其在未知室内环境中。尽管路径规划不够平滑，但表明强化学习在某些场景下可作为无地图导航的有效方案。

摘要由CSDN通过智能技术生成

目录

论文意义
具体思路
实验结果分析
实验结论
不足之处（个人意见）

论文意义

规划机器人的运动，从当前位置移动到目标位置。
传统方法：基于激光测绘来获得一个全局障碍图（“Simultaneous localization and
mapping: part i），然后对机器人的行为进行规划。
但是问题主要有二：建立全局障碍图比较耗时；对用于测绘的设备精度要求较高。

由于可见光与wifi定位技术的发展，移动机器人可以获得一个实时的相对位置。但在没有全局障碍图的情况下，仅仅有实时位置仍然很难做出全局规划路线。本文提出了，用异步深度强化学习算法来训练机器人在没有障碍图的情况下，仅仅使用十维的稀疏特征值与实时位置就能输出机器人的线速度与角速度，能够从当前位置移动到目标位置。

具体思路

强化学习算法的选择

选用了ADDPG（异步DDPG算法）
因为DQN，NAF，DDPG都利用了经验回放原则，这一类离线学习算法的主要问题是采样效率低，难以大规模采样。

而异步多线程的A3C算法需要多个并行仿真环境，这使其不适用于一些特定的仿真引擎（V-REP）。

另外，DQN不能运用于连续控制，NAF虽然可以运用于连续控制但其参数比DDPG多，所以最终选择了DDPG算法并扩展成异步。

测试有效性

利用开源环境gym中的小例子——Pendulum-v0，测试DDPG与ADDPG采集样本的效率。结果如下：

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。