OpenAI雄心勃勃的机器人计划失败了:强化学习没法用?

来源:机器之心

曾经训练出单手解魔方机器人的 OpenAI,眼下已经解散了机器人团队。这家执着于实现通用人工智能(AGI)的公司现在放弃了机器人研究,理由是「数据不够丰富」。

近期,OpenAI 公司联合创始人 Wojciech Zaremba 在一档播客节目中透露了这个消息。当主持人问到「你们为什么选择了机器人领域」的时候,Wojciech Zaremba 却表示,OpenAI 已将重点转移到其他领域,因为在那些领域中数据更容易获得。

视频地址:https://youtu.be/429QC4Yl-mA

Wojciech Zaremba:我们曾在机器人技术上研究了几年,直到最近我们改变了 OpenAI 的关注点,实际上,我解散了机器人团队。

主持人:你为什么这样做?

Wojciech Zaremba:事实证明,只要能够访问数据,以及借助机器学习、无监督和强化学习,我们就可以取得巨大的进步…… 实际上有很多领域的数据非常丰富。而数据问题阻碍了我们在机器人技术方面的发展。

「解散机器人团队这个决定对我来说很难,但前段时间我意识到,从公司的角度来看,实际上这样是最好的」,Wojciech Zaremba 说道。

一份 OpenAI 方面发送给 VentureBeat 的声明表示:「在通过我们的魔方机器人项目和其他项目推进强化学习的最新技术之后,去年 10 月,我们决定不再继续进一步的机器人研究,而是将团队力量整合到其他项目中。由于人工智能及其能力的快速进步,我们发现其他方法,例如根据人类反馈进行强化学习,可以使我们的研究取得更快的进展。」

2019 年,OpenAI 展示了单手解魔方机器人的研究成果,一度引发科技圈的讨论热潮。单手玩魔方,对于一般人类来说都很困难,而那台 13000 年经验训练出来的五指机械手,还原魔方的几率达到了 20-60%,即使受到戴橡胶手套、绑住食指和中指、蒙上一块布等干扰,也不会影响其工作效率。

这是 OpenAI 此前两年多工作的研究成果。2017 年 5 月,OpenAI 发布了 Roboschool,这是一个用于在模拟环境中控制机器人的开源软件。同年,该公司表示已经创建了一个完全在模拟中训练并部署在一个物理机器人上的系统,只需要完成一次学习就能学会新任务。2018 年,OpenAI 提供了模拟机器人环境和 Hindsight Experience Replay 的 baseline 实现,这是一种可以从失败中学习的强化学习算法。

如果我们是一家机器人公司,或者公司的使命与现在有所不同,我认为我们会继续下去。事实上,我非常相信机器人所采取的方法和方向,但是从我们想要实现的目标——也就是构建 AGI 来看,目前还有所欠缺。当创造机器人时,我们以为可以凭借自主生成数据和强化学习走得很远。

这让人们想起了昨天 AI 圈内讨论的一个话题:

图源:https://www.zhihu.com/question/449478247/answer/2001407526

当然,在回答的更新部分中,俞扬表示:说没法用只是吐个槽,要想发论文,就只能沿着所谓的 SOTA 来改进,即使是看起来没有希望的方向。俞扬进一步说道:

好多留言说明了「没法用」反映出大家的心声。实际上强化学习这个古老的研究领域 2016 前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低,然后做出了很多改进,但是要改进到什么程度才能有用呢,其实根据我们的经验有一个标准:

零试错:一次试错不能有,上线即能发挥效果,还要明显优于基线。

offline RL 是个正确的方向,但是目前的主流研究也有很多明显的弯路,可能发论文与做落地本身就是不同的事,大家的关心点不可能完全一致吧。

另外就是我们的落地越来越多,不再想着去说服别人 RL 可以用了。

对 AGI 的执着

一直以来,OpenAI 都认为巨大的算力是通向 AGI 或让 AI 学习任何人类学习任务之路的必要步骤。虽然 Yoshua Bengio、Yann LeCun 等大佬都认为 AGI 不可能存在,但 OpenAI 的联合创始人及其观点支持者始终相信强大的计算机与强化学习、预训练和其他技术相结合,可让 AI 实现跨越式进步,这几位联合创始人包括 Greg Brockman、首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和 Y Combinator 前总裁 Sam Altman。

这条路线上的代表成果就是 DALL-E,这是一个 120 亿参数的文本 - 图像引擎,本质上是一个视觉创意生成器,称为「图像版 GPT-3」。DALL-E 能够结合不同的想法来合成物体,其中一些物体在现实世界中不太可能存在——比如蜗牛和竖琴的混合体。

输入「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图像。

Brockman 和 Altman 十分相信 AGI 将能够掌握比任何人都多的领域知识,特别是识别人类专家无法掌握的复杂的、跨学科的联系。此外他们预测,社会科学等相关领域的研究者如果与部署的 AGI「密切合作」,有助于解决气候变化、医疗保健和教育方面的长期挑战。

Zaremba 断言,预训练是创建大型复杂 AI 系统的一种特别强大的技术。预训练有助于模型学习可在目标任务上重用的通用特征,以提高其准确性。GitHub 最近推出了代码生成工具 Copilot,在 OpenAI 开发其支撑模型 Codex 的过程中,预训练起到了重要作用。GitHub Copilot 提供代码建议的服务适用于 Microsoft Visual Studio 等开发环境中的整行代码。Codex 是 OpenAI GPT-3 的微调版本。

一连几条推特,Zaremba 都在为 Copilot 宣传:「如果个人电脑是工程师心中的自行车,那么 Copilot 就是自动驾驶的特斯拉。」

「我相信预训练能够让模型在提升相同智能能力的情况下,成本仅用原方法的 1/100。」Zaremba 说道。

说点儿现实的因素

深入思考,OpenAI 放弃机器人技术可能反映了该公司面临的经济现实。随着研发成本的增加, DeepMind 近年来也经历了类似的转变 ,从有声望的项目转向商业应用——例如蛋白质结构预测。

众所周知,机器人技术是一个成本高昂的领域。由于经济原因进行大规模变动的机器人公司并不是个例:

比如工业机器人公司 Rethink Robotics 在试图寻找收购方失败后数月关门大吉;本田 Asimo 机器人在 2018 年宣布终止开发;就连业内领先的波士顿动力公司近年来也是多次易主,在韩国现代汽车集团以 11 亿美元收购控股权之前,2014 年曾被谷歌以 30 亿美元的价格收购,2017 年又被软银收购。

一年前,微软宣布向 OpenAI 投资 10 亿美元共同开发微软 Azure 云平台的新技术。作为交换,OpenAI 同意将其部分知识产权许可给微软,并且在开发下一代计算硬件时用 Azure 训练和运行 AI 模型。

之后的几个月里,OpenAI 发布了一个 Microsoft Azure 驱动的 API,允许开发人员探索 GPT-3 的功能。GPT-3 现在已被众多业内开发者在 300 多个不同的应用程序中使用,平均每天产生 45 亿个单词。2020 年底,微软宣布将独家许可 GPT-3 为客户开发和交付 AI 解决方案,以及创建利用自然语言生成能力的新产品。最近,微软又宣布 GPT-3 将与 Power Apps「深度」集成。

而 DALL-E、Jukebox 等项目也具有明显的商用价值,OpenAI 预测 DALL-E 有一天甚至可以强大到取代 3D 渲染引擎。

在这些商业动向的背后,是机器人商业化场景落地难的实际现状。在 AI 产业落地面临复杂场景挑战的今天,对于 OpenAI 来说,放弃成本高昂且研发成果匮乏的机器人研究团队,也许是一个长远的明智选择。

参考链接:

https://venturebeat.com/2021/07/16/openai-disbands-its-robotics-research-team/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值