梦境控制:通过潜在想象力学习行为

“潜在想象力”论文摘要

这篇名为“潜在想象力”的强化学习论文,由 Donnie Gerhoffner、Timothy、Lily Krupp、Timmy(抱歉,应该是 Jim Eba) 和 Muhammad Norozi 共同撰写。它延续了之前一系列论文的研究方向,目标是学习一个策略,具体来说是为连续控制任务学习策略,例如物理模拟的机器人,比如跳跃机器人或步行机器人,这些机器人需要通过控制关节来向前移动。

在强化学习中,机器人通过观察周围环境来做出行动。每个观察都会产生一个行动,进而产生新的观察结果以及奖励。奖励通常与机器人完成目标的程度成正比,例如,如果目标是让蜘蛛机器人移动得更远,那么奖励就与移动的距离成正比。

这篇论文的创新之处在于,它通过在“潜在空间”中进行预先规划来学习策略。具体做法是,将观察结果输入一个编码器,编码器可以是一个卷积神经网络或其他类似的模型,将图像转换为隐藏表示。这个隐藏表示可以用来预测下一个行动,然后根据新的观察结果,以及上一个隐藏状态,生成新的隐藏状态。

以往的模型通常会将观察结果编码,并使用循环神经网络将所有观察结果和行动整合到一个隐藏状态中,然后根据这个隐藏状态决定下一个行动。而这篇论文的模型则是在隐藏空间中进行所有操作。

模型会根据当前的观察结果,通过编码器得到一个隐藏状态,然后根据预测的行动,在没有实际观察的情况下,预测下一个隐藏状态。例如,如果当前状态是蜘蛛机器人处于某个位置,预测的行动是将控制杆向右移动,那么模型就会预测出蜘蛛机器人向右移动后的隐藏状态。它会预测未来多个时间步长的隐藏状态,并根据这些预测状态进行学习,而不是直接在现实世界中执行行动。

这篇文章借鉴了其他一些研究,例如 MuZero。

Dreamer 是 DeepMind 开发的一种新的强化学习智能体,它通过潜在空间中的前向想象来学习连续控制任务。https://arxiv.org/abs/1912.01603视频:https://dreamrl.github.io/摘要:学习的世界模型总结了智能体的经验,以促进学习复杂的行为。虽然通过深度学习从高维感官输入中学习世界模型已成为可能,但从它们中推导出行为有很多潜在的方法。我们提出了 Dreamer,一种强化学习智能体,它仅通过潜在想象就能从图像中解决长时程任务。我们通过将学习状态值的解析梯度反向传播到在学习世界模型的紧凑状态空间中想象的轨迹中,有效地学习行为。在 20 个具有挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面超越了现有方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YannicKilcher

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值