【续】DeepMind项目取得新进展:一种改进机器人学习系统的新思路

DeepMind项目——一种改进机器人学习系统的新思路

近期在预印本平台Arxiv.org上发表的一篇论文中,DeepMind的科学家介绍了简单传感器意图(SSIs)的概念,这是一种减少在强化学习系统中定义奖励(描述人工智能应该如何表现的功能)所需知识的方法。他们声称,SSIs仅需要使用原始的传感器数据就可以帮助解决一系列复杂的机器人任务,例如抓取、举起球,并将球放入杯子中。

在机器人领域训练AI通常需要人类专家和先验信息。必须根据当前的总体任务对AI进行调整,这就需要定义一个奖励,以表明是否成功从而促进有意义的探索。SSIs表面上提供了一种鼓励代理探索其环境的通用方法,以及用于收集数据以解决主要任务的指导。如果将SSIs商业化或部署到生产系统(比如仓库机器人)中,SSIs可以减少手动微调和计算成本高昂的状态估计(即通过输入值和输出值的测量来估计系统的状态)的需要。

正如研究人员所解释的,在没有奖励信号的情况下,AI系统可以通过对机器人传感器(例如,触摸传感器、关节角度传感器和位置传感器)产生影响的学习策略来形成探索策略。这些策略探索环境以找到富有成果的区域,使他们能够为主要学习任务收集高质量的数据。具体而言,SSIs是通过获取传感器响应并根据以下两种方案之一来计算奖励而定义的一组辅助任务:(1)奖励达到特定目标响应的代理,(2)奖励引起特定响应变化的代理。

在实验中,论文的合著者将一个带摄像头的机器人(Sawyer机器人)的原始图像转换成少量的SSIs。他们汇总了图像空间颜色分布的统计数据,通过对场景中物体的颜色估计值定义了颜色范围和相应的传感器值。他们总共使用了六个基于机器人触控传感器的SSIs,以及在装有彩色块的篮子周围的两个摄像机。仅当控制机器人的AI系统将两个摄像机的颜色分布平均值移至所需方向时,它才能获得最高奖励。

研究人员报告说,AI在经过9000轮次(6天)的训练后,成功地学会了解除障碍物。即使在他们将单一颜色通道的SSIs替换为在多个颜色通道上聚合奖励的SSIs之后,AI还是设法学会了从原始传感器信息中提取出“各种各样”的不同对象。在另一个环境中进行了4000轮次(3天)的训练后,它学会了玩杯子和球。

在未来的工作中,合著者打算集中精力扩展SSIs,以自动生成奖励和奖励组合。他们写道:“我们认为,我们的方法需要的先验知识比广泛使用的成形奖励公式要少,后者通常依赖于任务洞察力来定义和计算状态估计。SSIs的定义很简单,域之间没有或只有很小的适应性。”
在这里插入图片描述

来源:VentureBeat 湖南瑞森可机器人整理发布

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值