自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Code as Policies: LanguageModel Programs for Embodied Control

​在代码完成上训练的大型语言模型(LLM)已被证明能够从文档字符串合成简单的Python程序[1]。我们发现,这些代码编写LLM可以被重新用于编写机器人策略代码,给定自然语言命令。具体来说,策略代码可以表达函数或反馈循环,处理感知输出(例如,来自对象检测器[2]、[3]),并参数化控制原语API。当提供几个示例语言命令(格式化为注释)以及相应的策略代码(通过少射提示)作为输入时,LLM可以接受新命令,并自主重组API调用以生成新策略代码。通过链式经典逻辑结构和引用第三方库(例如NumPy、Shapely)

2023-08-03 13:15:39 566

原创 翻译:视觉语言动作模型,将在线知识转化到机器人控制RT-2: Vision-Language-Action ModelsTransfer Web Knowledge2Robotic Control

在广泛的网页规模数据集上预训练的高容量模型为各种下游任务提供了有效而强大的平台:大型语言模型不仅能使文本生成流畅(Anil等人,2023;Brohan等人,2022;OpenAI,2023),而且能解决新出现的问题(Cobbe等人,2021;Lewkowycz等人,2022;Polu等人,2022)并创造性地生成散文(Brown等人,2020;OpenAI,2023)和代码(Chen等人,2021),而视觉-语言模型则能实现开放词汇的视觉识别(Kirillov等人,2023;Minderer等人,2022。

2023-07-30 23:04:11 1442 1

翻译 大语言模型LLMs驱动机器人 李飞飞 VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

在这项工作中,我们的目标是合成机器人轨迹,即一个密集的6自由度末端执行器航点序列,用于处理给定开放集合的指令和开放集合的对象的各种操作任务。我们首先观察到LLMs擅长根据自由形式的语言指令推断出可供性和约束。更重要的是,通过利用他们的代码编写能力,他们可以与视觉语言模型(VLM)交互,组合3D价值地图 *3D Value Map*,将知识固定在代理的观察空间中。然后,将组合的价值地图用于基于模型的规划框架中,以zero-shot方式合成对动态干扰具有鲁棒性的闭环机器人轨迹。

2023-07-12 18:50:45 3919

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除