论文阅读笔记《Stochastic Grounded Action Transformation for Robot Learning in Simulation》

最新推荐文章于 2024-07-18 21:56:03 发布

Dream Flying Eagle

最新推荐文章于 2024-07-18 21:56:03 发布

阅读量259

点赞数

分类专栏： # 虚实迁移文献阅读笔记 ★ 强化学习 ★ 文章标签：论文阅读笔记

本文链接：https://blog.csdn.net/weixin_42856843/article/details/130418791

版权

★ 强化学习 ★ 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

虚实迁移文献阅读笔记

5 篇文章 0 订阅

订阅专栏

Stochastic Grounded Action Transformation for Robot Learning in Simulation

发表于IROS 2020(CCF C)

模拟中机器人学习的随机接地动作转换

Desai S, Karnan H, Hanna J P, et al. Stochastic grounded action transformation for robot learning in simulation[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020: 6106-6111.

介绍

由于摩擦、齿轮间隙、不平地形和环境中的其他噪声源等影响，学习值的分布将更准确地反映现实世界。他们将注意力集中在将模拟器视为黑盒的接地算法上，例如接地动作转换(GAT)算法。

他们展示了GAT未能充分接地模拟器的几个领域，他们提出了一种新的算法，随机接地动作转换(SGAT)，它通过学习环境中的随机性来优雅地处理这个问题。

方法

随机接地动作转换学习正向动力学的随机模型。换句话说，模型预测的是下一个状态的分布，而不是最有可能的下一个状态。

在连续状态和动作域中，他们将下一个状态建模为多元高斯分布，并使用负对数似然(NLL)损失 $\mathcal{L} = - log\ p(s_{t+1}|s_t, a_t)$ 训练前向模型。与GAT类似，他们使用具有两个全连接的64个神经元隐藏层的神经网络函数逼近器来表示正向和逆模型，但与GAT不同的是，SGAT中的正向模型输出高斯分布的参数，他们从中采样预测的下一个状态。在他们的实现中，最后的全连接层为状态向量的每个元素输出平均值， $µ$ 和对数标准偏差， $l o g (σ)$ 。

更多具体方法细节，参见本作的前代研究《Grounded Action Transformation for Robot Learning in Simulation》。

实验

悬崖行走(sim-to-sim)实验

他们使用经典的强化学习域悬崖行走(网格世界)验证了SGAT的好处。在这个领域中，智能体必须绕过悬崖才能到达目标。在他们的问题版本中，他们假设有一个确定性模拟器，但在“真实”环境中，在每个时间步骤中，智能体都有很小的机会朝着随机方向移动，而不是它选择的方向。

图1 实验场景

图7为不同环境噪声参数值下的GAT和SGAT。重复基础步骤和策略改进步骤，直到两种算法收敛为止。为了评估最终的策略，他们估计平均10,000集的预期回报。当值为0时，“真实”环境是完全确定的。当值为1时，每个跃迁都是随机的。因此，在这两个端点上，两种算法获得的预期收益之间没有区别。

对于每一个中间值，SGAT都优于GAT。

图2 悬崖行走实验结果

MuJoCo环境(sim-to-sim)实验

这篇论文研究了在连续控制领域中，结构化图注意力转移（SGAT）算法的性能评估。研究者在OpenAI Gym MuJoCo环境中进行实验，比较了SGAT和图注意力转移（GAT）算法在存在噪声的目标环境中的有效性。他们选择了Inverted Pendulum和Half Cheetah领域来测试SGAT在低维和高维状态及动作空间环境中的性能。结果表明，随着目标环境随机性的增加，使用SGAT学到的策略比使用GAT学到的策略表现更好，而动作噪声信封（ANE）方法只在特定的噪声值下表现良好。

图3 四种方法（在未接地模拟器上训练策略、SGAT、GAT和ANE）在“真实”环境中的表现。

图4 在 HalfCheetah 上进行的相同实验，包括领域不匹配的情况。

NAO 机器人(sim-to-real)实验

作者使用了 SoftBank NAO 机器人和 SimSpark 物理模拟器进行实验，在不平坦的地形上让机器人学习走路。作者比较了 GAT 和 SGAT 两种算法的效果，结果表明，SGAT 算法更成功，能够让机器人保持平衡走路。作者通过模拟器优化不稳定性来改进策略，最后在不平衡地面上进行了十次试验，结果表明，采用 SGAT 算法产生的策略比使用 GAT 的更为稳定，成功率更高。论文最终得出结论，SGAT 算法适用于现实世界中机器人学习走路的应用。

图4 机器人在不平整地面上行走的实验设置。 表1 NAO机器人在不平整地面上行走的速度和稳定性。

	Speed (cm/s)	Falls	Speed (cm/s)	Falls
GAT	15.7 ± 2.98	6/10	18.5 ± 3.63	10/10
SGAT	16.9 ± 0.678	0/10	18.0 ± 2.15	1/10

总结

这两种算法在确定性环境中的表现相似。在现实世界中，我们无法在测试前知道环境的随机程度。这一事实表明，我们应该默认使用SGAT。

Dream Flying Eagle

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记《Stochastic Grounded Action Transformation for Robot Learning in Simulation》

由于摩擦、齿轮间隙、不平地形和环境中的其他噪声源等影响，学习值的分布将更准确地反映现实世界。他们将注意力集中在将模拟器视为黑盒的接地算法上，例如接地动作转换(GAT)算法。他们展示了GAT未能充分接地模拟器的几个领域，他们提出了一种新的算法，随机接地动作转换(SGAT)，它通过学习环境中的随机性来优雅地处理这个问题。
复制链接

扫一扫