【具身智能论文精读系列】SayCan 论文超详细解读

最新推荐文章于 2025-05-29 09:43:06 发布

偏执狂人形机器人

最新推荐文章于 2025-05-29 09:43:06 发布

阅读量2k

点赞数 27

分类专栏：具身智能论文精读文章标签：人工智能语言模型机器人 ai

本文链接：https://blog.csdn.net/m0_73697293/article/details/143867726

版权

【具身智能论文精读系列】SayCan 论文超详细解读

论文链接：[2204.01691] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

官网地址：say-can.github.io

这是一篇在具身智能领域最有影响力的工作之一，来自Google，目前已经被引用1340次（2024/11/18），其核心思想十分简单，为了帮大家节省时间，梳理了论文的内容如下：

另外分享GitHub上3k+ star的LLM-based系列具身智能论文合集：

https://github.com/GT-RIPL/Awesome-LLM-Robotics.git

一句话总结：

通过LLM根据指令从给定任务词典中选择一系列候选动作并输出其有效性 $p_i$ （Say）；可供性函数（affordance functions）能根据现实场景图片得到候选动作的可行性 $q_i$ （Can），选出两者之积最大的动作（语言指令），送入模仿学习得到的策略模型执行动作。

这篇文章的核心内容十分简洁，不想知道实现细节的话只看下面的速览即可。

主要工作速览：

Say Can的核心思想是通过价值函数(value function)，可供性函数(affordance function)——来使得大型语言模型对齐（grounding）现实物理世界的环境，通过这两个函数计算给定动作在当前状态下的成功率和可行性(affordance)，并选择其综合分数（二者乘积）最高的动作。

论文的主要思路如下：

LLM输出可能的候选动作的置信度（Say）
Value模型根据现实场景为每个候选动作根据可行性进行打分（Can）
选出两个置信度之积最大的动作，利用一个策略模型转换为动作进行执行（Do）

利用LLM的世界知识和语义分析能力，对于给定的指令进行一个全局规划决策，从给定的任务模板词典中选择出一个动作序列 ${l_1,l_2,...,l_n\}$ ，其中每一个动作 $l_i$ 的构造过程如下：

第 $i$ 轮，将自然语言指令(prompt)以及前 $i - 1$ 轮的动作，输入给LLM，从任务词典中选择出第 $i$ 个动作的候选动作列表（字符串描述）及每个可能动作的置信度 $p_j$
由于LLM（注意本工作中是非多模态的大语言模型）的输出没有考虑现实世界的环境，于是还需根据价值函数模型对动作列表中每个可能动作的合理性进行打分 $q_j$ ，计算每个动作的分数为两个分数 $p_j,q_j$ 的乘积
选择当前动作列表中分数最高的动作作为第 $i$ 轮将执行的动作