抚养一个3岁的机器人

研究人员开发了能够掌握多种技能的机器人学习代理人

人类是社会生物,相互学习,甚至从很小的时候就开始了。婴儿敏锐地观察他们的父母、兄弟姐妹或照顾者。他们观看、模仿和回放他们所看到的,以学习技能和行为。

婴儿学习和探索周围环境的方式激发了卡内基梅隆大学和Meta AI的研究人员开发一种新的方法,教机器人如何同时学习多种技能,并利用它们来处理看不见的日常任务。研究人员着手开发一种机器人人工智能代理,其操作能力相当于一个3岁的孩子。

该团队宣布了RoboAgent,这是一种人工智能代理,利用被动观察和主动学习,使机器人能够获得与幼儿同等的操纵能力。

在这里插入图片描述
计算机科学学院(在新窗口开放)机器人研究所(在新的窗口开放)的兼职教师Vikash Kumar说:“机器人代理是通用机器人代理的一个重要里程碑,它们是高效的学习者,在新的情况下有效,并能够随着时间的推移扩展自己的行为。”。“目前的机器人是高度专业化的,并接受单独任务的训练。相比之下,我们开始创建一个能够在看不见的场景中展示广泛技能的人工智能代理。RoboAgent像人类婴儿一样学习——利用丰富的被动观察和有限的主动游戏相结合。”

RoboAgent可以在不同的场景中完成12项操作技能。这项研究指向了一个能够适应不断变化的环境的机器人学习平台。与过去的研究不同,该团队在真实环境中展示了他们的工作,而不是模拟,并且使用的数据比以前的项目少得多。

机器人研究所副教授Abhinav Gupta(在新窗口中打开)表示:“机器人特工的技能比其他人所取得的技能复杂得多。”。“我们展示了比单一现实世界中的机器人代理所能实现的更大的技能多样性,具有效率和对独特的看不见的场景的泛化能力。”

该团队的代理人通过互联网数据中包含的自我体验和被动观察相结合的方式进行学习。当父母引导孩子时,研究人员通过任务远程操作机器人,为其提供有用的自我体验。

机器人学博士生Homanga Bharadwaj说:“我们方法的有效性和效率源于我们新颖的政策架构,即使经验有限,我们的代理人也能推理。”。“RoboAgent通过预测和聚合运动的时间块而不是通常使用的按时间步长的动作来响应指定的文本/视觉目标。”

机器人主要从自己的经验中学习,而不是被动地从周围发生的事情中学习。这种对环境中发生的事情的固有盲目性从根本上限制了机器人所接触到的体验的多样性和适应新情况的能力。为了克服这些限制,RoboAgent从互联网上的视频中学习——类似于婴儿如何通过被动观察周围环境来获得知识和行为。

机器人学博士生Mohit Sharma说:“RoboAgent利用这些视频中包含的信息来学习人类如何与物体互动的先验知识,并使用各种技能成功完成任务。”。“此外,在多个场景中观察类似的技能可以让它了解完成任务需要什么和不需要什么。当遇到未知任务或看不见的环境时,它会利用这些经验教训。”

机器人研究所助理教授Shubham Tulsiani(在新窗口中打开)表示:“能够进行这种学习的智能体使我们更接近于一个普通机器人,它可以在各种看不见的环境中完成各种任务,并随着收集更多经验而不断进化。”。“RoboAgent可以使用有限的域内数据快速训练机器人,同时主要依靠互联网上大量可用的免费数据来学习各种任务。这可以使机器人在家庭、医院和其他公共场所等非结构化环境中更有用。”

该团队经过训练的模型、代码库、硬件驱动程序,以及最值得注意的是,在这项研究中收集的整个数据集都是开源的。RoboSet是商品硬件上最大的公开机器人数据集。该团队希望这将使其他人能够重复使用、调整并将其向前传递,随着时间的推移,最终形成一个真正基础的通用机器人代理。

该研究团队包括Meta AI的Kumar、Tulsiani、Gupta、Bharadwaj、Sharma和Jay Vakil。

相关视频链接:https://mp.weixin.qq.com/s/OC8adO_ppsfxgBlnqIvJHw

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值