路径规划再登新高：蒙特卡洛树与LLMs如何做出更智能的决策？

最新推荐文章于 2025-05-26 16:38:55 发布

深蓝学院

最新推荐文章于 2025-05-26 16:38:55 发布

阅读量1.4k

点赞数 19

文章标签：人工智能自动驾驶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/soaring_casia/article/details/142739422

版权

在探索人工智能边界的过程中，任务规划，特别是在大规模和复杂环境下的规划，始终是一项充满挑战的任务。近期，新加坡国立大学的研究团队在这一领域取得了突破性进展，他们创新性地融合了大型语言模型（LLMs）与蒙特卡洛树搜索（MCTS）算法，为任务规划的效率与效果带来了显著提升。论文《Large Language Models as Commonsense Knowledge for Large-Scale Task Planning》深入剖析了如何利用LLMs的丰富常识来优化任务规划策略。

1. LLM-MCTS：提升Saycan的效能与泛化性

在此之前，Saycan作为一个先进的任务规划框架，已经展示了利用语言模型进行任务规划的潜力。然而，Saycan在处理大规模任务规划时，面临着效率和泛化能力的挑战。为了克服这些限制，新加坡国立大学的研究团队在Saycan的基础上，推出了LLM-MCTS算法，进一步提升了规划性能。

↓在阅读本文之前，推荐阅读对Saycan的解读↓
详解具身智能元老SayCan｜机器人和大语言模型如何互利共赢

▲图1｜SayCan将LLMs与现实世界联系起来©️【深蓝AI】编译

LLM-MCTS算法的核心创新点在于将大型语言模型（LLMs）的两个关键能力：

「丰富的常识知识库」和「启发式策略生成」与蒙特卡洛树搜索（MCTS）算法结合起来，以应对大规模任务规划的挑战。

相较Saycan的主要改进：

●更高效的搜索算法：LLM-MCTS算法采用MCTS算法，相比于Saycan系统，显著提高了搜索效率和决策质量。

●更好的泛化能力：通过使用LLMs作为常识世界模型，LLM-MCTS在处理复杂和新颖的任务时，展现出了更好的泛化能力。

●结合常识知识与启发式策略：LLM-MCTS不仅利用LLMs的常识知识来构建世界模型，还将其作为启发式策略来指导搜索过程，这在Saycan系统中并未充分利用。

2. LLM-MCTS算法的创新点

LLM-MCTS算法的核心创新在于将LLMs的两个关键能力——丰富的常识知识库和启发式策略生成——与蒙特卡洛树搜索（MCTS）算法结合起来，以应对大规模任务规划的挑战。

■2.1 LLM作为常识世界模型（L-Model）

LLMs通过在互联网规模的数据上进行训练，积累了广泛的常识知识。在LLM-MCTS算法中，研究者们利用这一特点，将LLMs用作构建常识世界模型的工具。这个模型能够预测对象可能的位置，例如，知道苹果通常放在厨房柜台或冰箱里，而不是卧室的衣柜里。

●初始状态信念：LLMs帮助确定对象初始可能的位置，为MCTS提供一个起点。

●状态信念更新：随着机器人在环境中执行动作并获得新的观察，LLMs更新其对对象位置的信念。

■2.2 LLM作为启发式策略（L-Policy）

LLMs还被用作启发式策略，指导MCTS中的选择过程。在每一步，LLMs基于当前的任务历史和观察结果，提出一系列可能的动作。

●动作选择：LLMs生成的动作建议被用作MCTS中选择动作的启发式信息，从而减少搜索空间并提高搜索效率。

●策略概率分布：通过多次采样LLMs，研究者们能够近似出一个策略概率分布，用于指导MCTS的动作选择。

■2.3 结合L-Model和L-Policy

LLM-MCTS算法将L-Model和L-

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。