在探索人工智能边界的过程中,任务规划,特别是在大规模和复杂环境下的规划,始终是一项充满挑战的任务。近期,新加坡国立大学的研究团队在这一领域取得了突破性进展,他们创新性地融合了大型语言模型(LLMs)与蒙特卡洛树搜索(MCTS)算法,为任务规划的效率与效果带来了显著提升。论文《Large Language Models as Commonsense Knowledge for Large-Scale Task Planning》深入剖析了如何利用LLMs的丰富常识来优化任务规划策略。
1. LLM-MCTS:提升Saycan的效能与泛化性
在此之前,Saycan作为一个先进的任务规划框架,已经展示了利用语言模型进行任务规划的潜力。然而,Saycan在处理大规模任务规划时,面临着效率和泛化能力的挑战。为了克服这些限制,新加坡国立大学的研究团队在Saycan的基础上,推出了LLM-MCTS算法,进一步提升了规划性能。
↓在阅读本文之前,推荐阅读对Saycan的解读↓
详解具身智能元老SayCan|机器人和大语言模型如何互利共赢
LLM-MCTS算法的核心创新点在于将大型语言模型(LLMs)的两个关键能力:
「丰富的常识知识库」和「启发式策略生成」与蒙特卡洛树搜索(MCTS)算法结合起来,以应对大规模任务规划的挑战。
相较Saycan的主要改进:
●更高效的搜索算法:LLM-MCTS算法采用MCTS算法,相比于Saycan系统,显著提高了搜索效率和决策质量。
●更好的泛化能力:通过使用LLMs作为常识世界模型,LLM-MCTS在处理复杂和新颖的任务时,展现出了更好的泛化能力。
●结合常识知识与启发式策略:LLM-MCTS不仅利用LLMs的常识知识来构建世界模型,还将其作为启发式策略来指导搜索过程,这在Saycan系统中并未充分利用。
2. LLM-MCTS算法的创新点
LLM-MCTS算法的核心创新在于将LLMs的两个关键能力——丰富的常识知识库和启发式策略生成——与蒙特卡洛树搜索(MCTS)算法结合起来,以应对大规模任务规划的挑战。
■2.1 LLM作为常识世界模型(L-Model)
LLMs通过在互联网规模的数据上进行训练,积累了广泛的常识知识。在LLM-MCTS算法中,研究者们利用这一特点,将LLMs用作构建常识世界模型的工具。这个模型能够预测对象可能的位置,例如,知道苹果通常放在厨房柜台或冰箱里,而不是卧室的衣柜里。
●初始状态信念:LLMs帮助确定对象初始可能的位置,为MCTS提供一个起点。
●状态信念更新:随着机器人在环境中执行动作并获得新的观察,LLMs更新其对对象位置的信念。
■2.2 LLM作为启发式策略(L-Policy)
LLMs还被用作启发式策略,指导MCTS中的选择过程。在每一步,LLMs基于当前的任务历史和观察结果,提出一系列可能的动作。
●动作选择:LLMs生成的动作建议被用作MCTS中选择动作的启发式信息,从而减少搜索空间并提高搜索效率。
●策略概率分布:通过多次采样LLMs,研究者们能够近似出一个策略概率分布,用于指导MCTS的动作选择。
■2.3 结合L-Model和L-Policy
LLM-MCTS算法将L-Model和L-