视频 | DeepMind出了学习模式「SAC-X」，可以让机器人探索自我

最新推荐文章于 2021-07-01 12:45:44 发布

深度学习世界

最新推荐文章于 2021-07-01 12:45:44 发布

阅读量351

点赞数

AI 科技评论按：这里是，雷锋字幕组编译的 Two minutes paper 专栏，每周带大家用碎片时间阅览前沿技术，了解 AI 领域的最新研究成果。

原标题：DeepMind's AI Learns Complex Behaviors From Scratch | Two Minute Papers #239

翻译 | 徐速廖颖字幕 | 凡江整理 | 李逸帆吴璇

本期论文：Learning by Playing - Solving Sparse Reward Tasks from Scratch

class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7666666666666666" data-w="848" scrolling="no" data-src="http://v.qq.com/iframe/player.html?vid=w06282qexnb&width=654&height=367.875&auto=0" style="display: block; width: 654px !important; height: 367.875px !important;" width="654" height="367.875" data-vh="367.875" data-vw="654" src="http://v.qq.com/iframe/player.html?vid=w06282qexnb&width=654&height=367.875&auto=0"/>

▷每周一篇2分钟论文视频解读

前些日子，DeepMind 为 AI 机器人创建了一种全新的强化学习模式，名为 SAC-X（预定辅助控制），能够为机器人提供一个简单目标，并在完成时提供奖励。

论文解读视频中，我们可以看到有机器人在协助生产，但机器人没有预装任何特定程序，没有任何老师指导学习算法，也没有对环境的先验知识，只是在摸索如何达到人们的要求，并且获得相应的奖励。

SAC-X 通过给予机器人奖励反馈，让机器人从零开始学会复杂操作。这个配置有系列通用辅助任务的机器人，试图通过 off-policy 强化学习慢慢完成任务。过程中，研究人员不会手把手教机器人完成任务，只会开启机器配备的感测器，剩下的留给机器自己探索，直到任务完成为止。

这个方法背后的创新点在于，「预定的动作」和「辅助策略操作」能让机器人有效摸索周边环境，机器人在奖励非常稀疏的情况下，也能表现得非常好。在有挑战性的机器人操作设定演示实验中，这样的方法也能奏效。

论文原址：

https://arxiv.org/abs/1802.10567

点击下方“阅读原文”了解【人工智能实验平台】

↓↓↓

深度学习世界

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。