
Code as Policies: LanguageModel Programs for Embodied Control
在代码完成上训练的大型语言模型(LLM)已被证明能够从文档字符串合成简单的Python程序[1]。我们发现,这些代码编写LLM可以被重新用于编写机器人策略代码,给定自然语言命令。具体来说,策略代码可以表达函数或反馈循环,处理感知输出(例如,来自对象检测器[2]、[3]),并参数化控制原语API。当提供几个示例语言命令(格式化为注释)以及相应的策略代码(通过少射提示)作为输入时,LLM可以接受新命令,并自主重组API调用以生成新策略代码。通过链式经典逻辑结构和引用第三方库(例如NumPy、Shapely)






