论文阅读笔记《Stochastic Grounded Action Transformation for Robot Learning in Simulation》

Stochastic Grounded Action Transformation for Robot Learning in Simulation

发表于IROS 2020(CCF C)

模拟中机器人学习的随机接地动作转换

Desai S, Karnan H, Hanna J P, et al. Stochastic grounded action transformation for robot learning in simulation[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020: 6106-6111.

介绍

由于摩擦、齿轮间隙、不平地形和环境中的其他噪声源等影响,学习值的分布将更准确地反映现实世界。他们将注意力集中在将模拟器视为黑盒的接地算法上,例如接地动作转换(GAT)算法。

他们展示了GAT未能充分接地模拟器的几个领域,他们提出了一种新的算法,随机接地动作转换(SGAT),它通过学习环境中的随机性来优雅地处理这个问题。

方法

随机接地动作转换学习正向动力学的随机模型。换句话说,模型预测的是下一个状态的分布,而不是最有可能的下一个状态。

在连续状态和动作域中,他们将下一个状态建模为多元高斯分布,并使用负对数似然(NLL)损失 L = − l o g   p ( s t + 1 ∣ s t , a t ) \mathcal{L} = - log\ p(s_{t+1}|s_t, a_t) L=log p(st+1st,at) 训练前向模型。与GAT类似,他们使用具有两个全连接的64个神经元隐藏层的神经网络函数逼近器来表示正向和逆模型,但与GAT不同的是,SGAT中的正向模型输出高斯分布的参数,他们从中采样预测的下一个状态。在他们的实现中,最后的全连接层为状态向量的每个元素输出平均值, µ µ µ 和对数标准偏差, l o g ( σ ) log(σ) log(σ)

更多具体方法细节,参见本作的前代研究《Grounded Action Transformation for Robot Learning in Simulation》。

实验

悬崖行走(sim-to-sim)实验

他们使用经典的强化学习域悬崖行走(网格世界)验证了SGAT的好处。在这个领域中,智能体必须绕过悬崖才能到达目标。在他们的问题版本中,他们假设有一个确定性模拟器,但在“真实”环境中,在每个时间步骤中,智能体都有很小的机会朝着随机方向移动,而不是它选择的方向。

image-20230418190917805
图1 实验场景

图7为不同环境噪声参数值下的GAT和SGAT。重复基础步骤和策略改进步骤,直到两种算法收敛为止。为了评估最终的策略,他们估计平均10,000集的预期回报。当值为0时,“真实”环境是完全确定的。当值为1时,每个跃迁都是随机的。因此,在这两个端点上,两种算法获得的预期收益之间没有区别。

对于每一个中间值,SGAT都优于GAT。

image-20230418191315057
图2 悬崖行走实验结果

MuJoCo环境(sim-to-sim)实验

这篇论文研究了在连续控制领域中,结构化图注意力转移(SGAT)算法的性能评估。研究者在OpenAI Gym MuJoCo环境中进行实验,比较了SGAT和图注意力转移(GAT)算法在存在噪声的目标环境中的有效性。他们选择了Inverted Pendulum和Half Cheetah领域来测试SGAT在低维和高维状态及动作空间环境中的性能。结果表明,随着目标环境随机性的增加,使用SGAT学到的策略比使用GAT学到的策略表现更好,而动作噪声信封(ANE)方法只在特定的噪声值下表现良好。

image-20230424095027088
图3 四种方法(在未接地模拟器上训练策略、SGAT、GAT和ANE)在“真实”环境中的表现。

image

图4 在 HalfCheetah 上进行的相同实验,包括领域不匹配的情况。

NAO 机器人(sim-to-real)实验

作者使用了 SoftBank NAO 机器人和 SimSpark 物理模拟器进行实验,在不平坦的地形上让机器人学习走路。作者比较了 GAT 和 SGAT 两种算法的效果,结果表明,SGAT 算法更成功,能够让机器人保持平衡走路。作者通过模拟器优化不稳定性来改进策略,最后在不平衡地面上进行了十次试验,结果表明,采用 SGAT 算法产生的策略比使用 GAT 的更为稳定,成功率更高。论文最终得出结论,SGAT 算法适用于现实世界中机器人学习走路的应用。

image

图4 机器人在不平整地面上行走的实验设置。
表1 NAO机器人在不平整地面上行走的速度和稳定性。
Speed (cm/s)FallsSpeed (cm/s)Falls
GAT15.7 ± 2.986/1018.5 ± 3.6310/10
SGAT16.9 ± 0.6780/1018.0 ± 2.151/10

总结

这两种算法在确定性环境中的表现相似。在现实世界中,我们无法在测试前知道环境的随机程度。这一事实表明,我们应该默认使用SGAT。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值