Google发表了一项新研究,让机器人手臂不再需要人为设定固定的轨迹与姿势,而能自己从过去历史经验中学习,并透过观察环境自我校准后,从不同的视角抓取物体。Google使用了全新的深度网络架构,结合两个完全卷积网络以及一个短期记忆单元,让机器人能够在视觉上达到自我适应。
之所以人类可以从不同视角不同姿势操作物体,是因为从童年就透过操作各种物体学习,不断自适应并使用丰富的感官线索以及视觉作为错误修正的反馈,训练出优秀的视觉动作整合能力。而Google这个研究目的,便是要赋予机器人同样的能力,因为现行视觉控制机器人的物体操作能力,通常需要大量的人类介入,而且输入影像数据只能来自于固定的摄影机视角,但Google认为,让机器人拥有跟人类相似的视觉动作整合能力,将大幅提升机器人的实质功能,像是在紧急情况或是灾难现场进行救援。
要从未知视角的单一影像中,探索可控自由角度如何影响视觉动作,可能是一个模糊且范围广泛的问题,Google尝试进一步缩小问题,要识别在影像空间动作的行动影响,并成功执行被要求的任务,需要一个以过去动作记忆增强的感知系统。研究团队设计了一个具备7个自由度的机器人手臂,要让机器人以一张物体的图像,从一个完全不一样的视角,在一群物体中抓取图像中的物体。
Google提到,要收集机器人资料非常的困难且耗费时日,尤其这项训练数据还需要仿真复杂行为,因此Google决定使用仿真数据增加数据的多样性,仿真数据不只能够收集无限的机器人试验,而且还能随意的变换摄影镜头,当然他们也透过在机器人手臂周围安装多个摄影镜头,提供现实的训练数据。而且为了让机器人在未知的环境仍然拥有强健的视觉功能,他们采用领域随机化技术,让机器人在虚拟世界受训练,并将经验应用在现实世界中。
为了加强在未知环境中的应用,Google特别设计了一个深度神经网络,结合感知和控制训练进行端对端的模拟,但同时在需要时也允许独立学习,透过解构控制与感知,使机器人更能适应未知环境,由于两部分都能独立适用环境的小量数据,这样的设计让模型更加有效也更具弹性。
在这项研究的早期结果中显示,机器人手臂无论从各个角度,都可以抓取到视觉指引的物体,而另外的实验是在桌面上摆放两个物体以混淆机器人,要求机器人同样要从各种角度抓取指定物体,Google提到,虽然仿真网络具有良好的泛化能力,但由于网络的灵活架构,只有少量的静态可可视化数据能够可视化适用于控制器,进而提升了整体效能,即使在多样环境仍有良好的自我适应能力。