视频 | DeepMind出了学习模式「SAC-X」,可以让机器人探索自我

转载 2018年04月16日 00:00:00

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

AI 科技评论按这里是,雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。

原标题:DeepMind's AI Learns Complex Behaviors From Scratch | Two Minute Papers #239

翻译 | 徐速  廖颖    字幕 | 凡江    整理 | 李逸帆  吴璇

本期论文:Learning by Playing - Solving Sparse Reward Tasks from Scratch


▷每周一篇2分钟论文视频解读

前些日子,DeepMind 为 AI 机器人创建了一种全新的强化学习模式,名为 SAC-X(预定辅助控制),能够为机器人提供一个简单目标,并在完成时提供奖励。

论文解读视频中,我们可以看到有机器人在协助生产,但机器人没有预装任何特定程序,没有任何老师指导学习算法,也没有对环境的先验知识,只是在摸索如何达到人们的要求,并且获得相应的奖励。

SAC-X 通过给予机器人奖励反馈,让机器人从零开始学会复杂操作。这个配置有系列通用辅助任务的机器人,试图通过 off-policy 强化学习慢慢完成任务。过程中,研究人员不会手把手教机器人完成任务,只会开启机器配备的感测器,剩下的留给机器自己探索,直到任务完成为止。

这个方法背后的创新点在于,「预定的动作辅助策略操作能让机器人有效摸索周边环境,机器人在奖励非常稀疏的情况下,也能表现得非常好。在有挑战性的机器人操作设定演示实验中,这样的方法也能奏效。

论文原址:

https://arxiv.org/abs/1802.10567

640?wx_fmt=jpeg

640?wx_fmt=gif

640?wx_fmt=jpeg


点击下方“阅读原文”了解【人工智能实验平台】↓↓↓

自我探索工具

1、 迈尔斯布里格斯类型指标(MBTI)——http://www.apesk.com/mbti/dati.asp; 2、 卡特尔16PF测评——http://...
  • scliu12345
  • scliu12345
  • 2013-04-05 13:30:28
  • 781

智能对话机器人学习与制作(1)

1. 前言最近人工智能这个概念特别的火, 就想试着做一些类似的东西, 正好看到了这个项目 http://www.codeproject.com/articles/36106/chatbot-tutor...
  • zhyh1435589631
  • zhyh1435589631
  • 2016-10-25 10:55:25
  • 703

微软开源Malmo AI项目平台 利用Minecraft构建复杂机器人任务

上周四,微软透露Malmo项目从一小群计算机科学家手中的一个私人预览转变到在GitHub上公开的源代码。让微软Malmo人工智能项目平台开源。微软Malmo项目是一个人工智能系统,用Minecraft...
  • relar
  • relar
  • 2016-07-16 20:17:22
  • 974

解密Google Deepmind AlphaGo围棋算法:真人工智能来自于哪里?

2016年1月28日,Google Deepmind在Nature上发文宣布其人工智能围棋系统AlphaGo历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份A...
  • songrotek
  • songrotek
  • 2016-01-30 16:53:44
  • 36757

阿里一道机器人面试题。

某程序员开发出了一款超级智能机器人,能对任何提问给出“是”或者“不是”的答案。现有3个这种机器人,其中有数量不定的(0到3个)机器人发生了故障。如果正常机器人总是给出正确的答案,而故障机器人总是给出错...
  • u014422406
  • u014422406
  • 2016-09-25 20:59:20
  • 780

DeepMind新发布通用算法AlphaZero ,通用AI还远么?

今天,在 AlphaGo Zero 论文发布的一个多月之后,在我们觉得 AlphaGo Zero 已经成为尽善尽美的围棋之神的时候,DeepMind 又悄悄地放出了一篇新论文。这次 DeepMin...
  • qq_19598705
  • qq_19598705
  • 2017-12-07 19:04:20
  • 289

计算机可以这样玩—自我学习,自我思维,自我工作(编程)

如果让计算机产生自我意识,那一定件很好玩的事情。               我在想,怎么让计算机产生自我意识和自我学习的思维能力呢,特别是在工业集群中的应用。               由这个...
  • luozhonghua2014
  • luozhonghua2014
  • 2014-08-06 22:06:12
  • 1245

AI 自动研发机器学习系统,DeepMind 让算法学习强化学习

人工智能研发的一个大方向是用AI系统来自动化开发AI系统。虽然这一目标尚未实现,但目前的进展让已足够令人人震惊。本文介绍了最新的一些进展,包括伯克利让算法自我优化、MIT自动生成神经网络架构,以及在这...
  • LW_GHY
  • LW_GHY
  • 2017-01-24 22:33:21
  • 2923

【DeepMind最新Nature论文】探索人类行为中的强化学习机制.pdf

  • 2017年11月16日 16:45
  • 802KB
  • 下载

未知环境探索(一)

终于把需要解决的问题揪出来了,之前一直没有把问题的关键词提出来。瞎摸了这么长时间。 自己摸索难免走弯路。 言归正传: (1)自主环境探索关键技术: 与传统的路径规划相比,自主环境探索并不是简单的使机器...
  • xixi880928
  • xixi880928
  • 2014-11-27 09:30:29
  • 2070
收藏助手
不良信息举报
您举报文章:视频 | DeepMind出了学习模式「SAC-X」,可以让机器人探索自我
举报原因:
原因补充:

(最多只允许输入30个字)