【论文阅读】Grounding Language with Visual Affordances over Unstructured Data

Abstract

最近的研究表明,大型语言模型(llms)可以应用于将自然语言应用于各种各样的机器人技能。然而,在实践中,学习多任务、语言条件机器人技能通常需要大规模的数据收集和频繁的人为干预来重置环境或帮助纠正当前的policies。在这项工作中,我们提出了一种新的方法,通过利用自我监督的视觉语言启示 visuo-lingual affordance模型,从现实世界中的非结构化、离线和无重置数据中有效地学习通用语言条件机器人技能,该模型只需要用语言注释总数据的1%。我们在模拟和现实世界的机器人任务中进行了广泛的实验,评估了我们的方法,在具有挑战性的calvin基准上实现了最先进的性能,并在现实世界中使用单个policy学习了25个不同的视觉运动操作任务。我们发现,当与llm结合使用,通过少镜头提示将抽象的自然语言指令分解为子目标时,我们的方法能够在现实世界中完成长时间、多层的任务,同时需要的数据比以前的方法少一个数量级。代码和视频可在http://hulc2.cs.uni-freiburg.de.        

I. INTRODUCTION

大规模语言建模的最新进展在将世界语义知识桥接到机器人指令跟随和规划[1]、[2]、[3]方面产生了有希望的结果。实际上,使用大型语言模型 (llm) 进行规划需要拥有大量不同的低级行为,这些行为可以无缝地组合在一起以智能地在现实世界中行动。学习这种感觉运动技能并以语言为基础通常需要大量大规模的数据收集工作[1],[2],[4],[5],频繁的人工干预,将技能限制为模板拾取和放置操作[6],[7],或在更简单的模拟环境[8],[9],[10]中部署policies。人类明显简单的任务,如将水倒入杯子中,很难教机器人做,也被称为moravec悖论[11]。这就提出了一个问题:我们如何以可扩展和数据高效的方式在现实世界中学习各种视觉运动技能,如下所示指令?

先前的研究表明,将机器人操作分解为语义和空间路径[12],[13],[6],提高了多模态信息的泛化、数据效率和理解。受这些路径架构的启发,我们提出了一种新颖的、样本高效的方法,通过利用自监督的视觉语言启示模型,从现实世界中的非结构化、离线和无重置数据中学习通用语言条件机器人技能。我们的主要观察结果是,我们可以用一个基于语义概念的高级流和一个基于3D空间交互知识的低级流来分层分解目标达成问题,而不是通过扩展数据收集来学习如何使用单个端到端模型从任何当前状态达到任何可实现的目标状态[14],如图1所示。

图1:当与大型语言模型配对时,hulc++能够从现实世界中的抽象自然语言指令中完成长期、多层任务,例如“整理工作空间”,而无需额外培训。我们利用视觉启示模型将机器人引导到语言所指的可操作区域附近。一旦进入这个区域,我们就会切换到一个7-dof语言条件视觉运动器policy,它是从离线、非结构化数据中训练出来的。

具体来说,我们提出了分层通用语言条件策略 Hierarchical Universal Language Conditioned Policies 2.0(hulc++),这是一个分层语言条件agent,它将hulc[10]的任务无关控制与vapo[13]的以对象为中心的语义理解相结合。hulc是一个state-of-the-art语言条件模仿学习agent,它学习7-dof目标,端到端达到policies。然而,为了共同学习语言、视觉和控制,它需要大量的机器人交互数据,类似于其他端到端agents[4]、[9]、[15]。vapo提取了非结构化数据的自监督视觉启示模型,不仅加速了学习,而且还被证明可以提高下游控制policies的泛化能力。我们证明,通过扩展vapo来学习语言条件启示,并将其与基于hulc的7-dof低级policy相结合,我们的方法能够直接从图像中连续跟踪多个长期操作任务,同时需要的数据比以前的方法少一个数量级。与之前的工作不同,之前的工作依赖于昂贵的专家演示和完全注释的数据集来学习现实世界中的语言条件agents,我们的方法利用了一种更具可扩展性的数据收集方案:非结构化、无重置且可能次优的远程操作游戏数据[16]。此外,我们的方法只需要用语言注释总数据的1%。大量实验表明,当与将抽象自然语言指令翻译成一系列子目标的llm配对时,hulc++可以在现实世界中完成长时间、多阶段的自然语言指令。最后,我们表明,我们的模型在具有挑战性的calvin基准[8]上设定了一个新的技术水平,通过7自由度控制,从高维感知观察中连续跟踪多个长期操纵任务,并通过自然语言指定。据我们所知,我们的方法是第一个明确旨在从现实世界中纯粹离线、无重置和非结构化数据中解决语言条件的longhorizon、多层任务的方法,同时只需要1%的语言注释。

II. RELATED WORK

在基础语言和视觉的进步推动下,机器人社区对构建语言驱动的机器人系统的兴趣日益浓厚[17],[19]。早期的工作侧重于定位引用表达式[20]、[21]、[22]、[23]、[24]中提到的对象,并使用预定义的运动基元遵循拾取和放置指令[25]、[6]、[26]。最近,端到端学习已被用于研究融合感知、语言和控制的挑战性问题[4]、[27]、[28]、[1]、[10]、[9]、[15]、[5]。由于其灵活性,从像素进行端到端学习是建模通用agents的一个有吸引力的选择,因为它对对象和任务的假设最少。然而,这种像素到动作模型通常具有较差的采样效率。在机器人操作领域,光谱的两个极端是cliport[6],另一方面是agents,如gato[5]和bc-z[4],其范围从需要几百个专家演示如何通过运动规划拾取和放置物体,到需要几个月的专家演示数据收集来学习视觉运动操作技能以实现连续控制。相比之下,我们取消了收集专家演示的要求以及手动重置场景的相应需求,以从非结构化、无重置、远程操作的播放数据中学习[16]。另一个正交工作线通过使用预训练的图像表示[29]、[6]、[30]来引导下游任务学习,解决了数据效率低下的问题ÿ

### Visual Grounding Related Patents Visual grounding involves linking textual references to specific regions or objects within images. This technology has significant applications in areas such as augmented reality, robotics, and human-computer interaction. To address visual grounding-related patents specifically: Patent documents often detail inventions that provide solutions for identifying and associating text descriptions with corresponding image segments[^1]. For instance, a patent might describe systems where users can input natural language queries about elements visible in an image, leading the system to highlight or point out these items accurately. Innovations covered by patents may include methods using deep learning models trained on large datasets containing paired sentences and annotated pictures. These models learn to map words from phrases into spatial locations inside photos automatically. Such techniques enable more intuitive interactions between humans and machines when dealing with multimedia content. Furthermore, some patented technologies focus on enhancing user experiences through improved accuracy and efficiency in localizing mentioned entities within complex scenes captured visually. Techniques like this are crucial for developing advanced interfaces that understand both linguistic inputs and graphical outputs simultaneously[^2]. ```python # Example pseudo-code illustrating concept of training model for visual grounding task. def train_visual_grounding_model(image_dataset, text_descriptions): # Initialize neural network architecture suitable for multi-modal data processing multimodal_network = initialize_multimodal_network() # Prepare dataset combining images and their associated texts combined_data = prepare_combined_dataset(image_dataset, text_descriptions) # Train model over epochs until satisfactory performance is achieved while not convergence_criteria_met(): loss_value = forward_pass(combined_data) backward_propagation(loss_value) update_parameters() return multimodal_network ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值