强化学习颠倒：不要预测奖励 - 只需将它们映射到动作

最新推荐文章于 2024-10-15 17:31:08 发布

YannicKilcher

最新推荐文章于 2024-10-15 17:31:08 发布

阅读量235

点赞数 6

文章标签：神经网络人工智能机器学习深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141179416

版权

Upside Down Reinforcement Learning: 一种颠覆性的新方法

这篇论文介绍了“颠倒强化学习”（LAR），一种将传统强化学习（RL）转变为监督学习的新方法。LAR 的核心思想是将输入信息进行颠倒，从而改变学习过程。

传统强化学习面临的挑战：

传统 RL 算法通常在处理复杂环境时效率低下，例如 Atari 游戏、机器人控制以及棋类游戏。

LAR 的解决思路：

将输入信息进行颠倒，并使用类似的 RL 技术进行学习。
以 Atari 游戏为例，LAR 将游戏画面颠倒，并将原本的奖励目标（例如金币）置于画面底部。
在机器人控制领域，LAR 将机器人模型颠倒，使其能够更好地完成目标任务。
在棋类游戏中，LAR 需要构建一个模拟磁性棋盘的环境，以防止棋子掉落。

LAR 的优势：

提升了 RL 的效率和性能。
适用于各种 RL 领域，包括 Atari 游戏、机器人控制和棋类游戏。

结论：

LAR 是一种颠覆性的新方法，它通过将输入信息颠倒，改变了传统 RL 的学习过程，从而提升了 RL 的效率和性能。该方法有望在未来为 RL 研究带来新的突破。

施密德胡伯跳出框框思考！颠倒式强化学习（UDRL）颠覆了强化学习，构建了一个以期望奖励为输入的行为函数。与经典强化学习算法相比，这种新范式展现出惊人的性能。摘要：我们通过颠覆传统的强化学习，将强化学习（RL）转化为一种监督学习（SL）的形式，我们称之为颠倒式强化学习（UDRL）。标准强化学习预测奖励，而UDRL则使用奖励作为任务定义输入，以及时间范围的表示和其他可计算的历史和期望未来数据的函数。UDRL学习将这些输入观察解释为命令，通过对过去（可能是偶然的）经验进行SL，将它们映射到动作（或动作概率）。UDRL通过输入命令进行泛化以实现高奖励或其他目标，例如：在尽可能短的时间内获得大量奖励！一篇关于UDRL首次实验的独立论文[61]表明，即使是UDRL的试点版本也能在某些具有挑战性的RL问题上胜过传统的基线算法。我们还介绍了一种相关且简单但通用的方法，用于教导机器人模仿人类。首先用视频记录人类模仿机器人的当前行为，然后让机器人通过SL学习将视频（作为输入命令）映射到这些行为，然后让它进行泛化并模仿人类执行先前未知行为的视频。这种模仿模仿者概念实际上可以解释为什么生物进化会导致父母模仿婴儿的咿呀学语。

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YannicKilcher 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。