让 AI 在货架上定位和移动物品

最新推荐文章于 2024-06-18 16:43:53 发布

Python中文社区

最新推荐文章于 2024-06-18 16:43:53 发布

阅读量576

点赞数

文章标签：人工智能深度学习编程语言机器学习 python

谷歌和加州大学伯克利分校的研究人员开发了一种名为LAX-RAY的系统，允许机器人在被遮挡的货架上找到并操纵物体。借助COCOI理论和深度强化学习，机器人能够在混乱环境中执行复杂的“contact-rich”操作。研究团队通过模拟和实际实验验证了该系统的准确性，未来计划进一步提升其在复杂场景中的能力，如使用气动吸盘进行拉动操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

谷歌公司和加州大学伯克利分校的研究人员提出了一种新的机器人技术，通过这种技术可以找到货架上被遮挡的物体并解决所谓“contact-rich”的操作任务，例如在桌子上移动物体。该系统可以预测目标对象的位置，即使只有一部分对象可见。研究人员在论文中提出了一种可感知的在线文本推理理论（COCOI），其目的是将物体的动力学特性嵌入到一个易于使用的框架中。

尽管让机器人在混乱事物中搜索特定对象问题的研究已经有相当长的时间，但是诸如架子、橱柜和壁橱之类的场景设定却很少被研究，尽管它们具有广泛的适用性。（例如，一家药店的服务机器人可能需要从医疗柜中找到特定药品）“Contact-rich”操作问题在现实世界中无处不在，并且人类本身已经进化出了在复杂的环境中能够操纵各种形状和特性物体的能力。但是由于理解高维感知和物理方面固有的挑战，机器人常常难以完成这些任务。

来自加州大学伯克利分校AUTOLab部门的人员专注于研究在“横向接触环境”或架子中寻找被遮挡的目标物体。研究人员利用一个开放框架——一阶货架模拟器（The First Order Shelf Simulator，FOSS）生成了800个难度各异的随机货架环境。然后，他们使用Fetch机器人和嵌入式深度感应摄像头将LAX-RAY系统部署到物理架子上，从而测量系统是否可以准确地找出对象的位置。

研究人员说LAX-RAY系统模拟时达到了87.3％的准确度，当应用于现实中的机器人时，转化为大约80％的准确度。在未来的工作中，研究人员计划研究更复杂的深度学习模型，并使用平行于相机的推力来创建具备横向推力的空间。他们还希望使用气动吸盘设计拉动动作，以从拥挤的架子上抬起并移除堵塞物。

来自 Google、Alphabet's X、Stanford 和 UC Berkeley 的论文合著者设计了一种深度强化学习方法，该方法采用多模式数据并使用“深度代表结构”来捕获“ contact-rich ”行为。系统会从机器人安装的触摸传感器上拍下视频素材和读数，以将动态信息编码为表示形式。这使强化学习算法能够以“动力学行为”来运行，从而提高其在困难环境中的鲁棒性。

研究人员通过让模拟机器人和现实机器人将物体推到目标位置，同时避免撞倒它们，从而对系统进行了基准测试。这听起来并不那么容易；无法从第三角度轻松提取关键信息，也无法直接从原始传感器信息中观察到任务动态属性。而且，该策略必须对具有不同外观，形状，质量和摩擦特性的对象采用不同方法。