OpenAI o1多步更复杂规划能力仅为23.63%-CSDN博客

本文链接：https://blog.csdn.net/AIBigModel/article/details/142527316

前顶会AAAI主席Subbarao Kambhampati发布了首篇评估OpenAI o1推理规划能力的17页论文，并正式将o1-like的LLM更名为LRM（大型推理模型）。

LLM仍然不能很好的规划

尽管LLMs在处理语言相关的任务上取得了显著的进展，但它们在需要复杂规划和推理的任务上仍然表现不佳。

通过使用PlanBench基准测试对多个LLMs进行了评估，包括在Blocksworld（经典的规划领域）问题的静态数据集上测试它们的表现：

在未混淆（常规）Blocksworld问题上，最好的LLMs（如LLaMA 3.1 405B）达到了62.6%的准确率。
然而，在语义相同但句法混淆的Mystery Blocksworld问题上，所有LLMs的表现都远远落后，没有一款模型的准确率超过5%。

在Blocksworld和Mystery Blocksworld领域600个实例上的性能，涵盖了使用zero-shot和one-shot提示的不同家族的大型语言模型。表现最好的准确率以粗体显示。

OpenAI o1评测

OpenAI o1模型被设计为一个大型推理模型（LRM），旨在通过新的架构和训练方法来克服传统LLMs的限制。与之前的LLMs相比，o1似乎被训练成了一个近似推理器而不仅仅是一个检索器，o1在PlanBench上的表现：

在PlanBench的静态测试集上，o1模型在Blocksworld问题上的表现显著优于所有其他LLMs，正确回答了97.8%的问题。
然而，在Mystery Blocksworld问题上，o1的表现虽然超过所有先前的模型，但准确率也只有52.8%。

OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和随机化Mystery Blocksworld领域的600个实例上的性能和平均所需时间。

这些示例来自Mystery Blocksworld。Fast Downward，一个领域无关的规划器[8]，几乎瞬间解决所有给定的实例，并保证完美的准确性。大型语言模型（LLMs）甚至在最小的实例上也表现挣扎。测试的两个大型推理模型（LRMs），o1-preview和o1-mini，出人意料地有效，但这种性能仍然不稳定，并且随着长度的增加迅速下降。

OpenAI o1处理更复杂问题的挑战

当问题变得更复杂时，o1模型的性能迅速下降。例如，在需要20到40步解决的更大Blocksworld问题上，o1的准确率仅为23.63%。

这表明o1在处理更复杂规划问题时的性能仍然有限，并没有表现出与问题规模无关的稳健性能。

即使是（常规的，未混淆的）Blocksworld数据集扩展到需要更多步骤的问题，也会恶化o1-preview的性能。在测试需要至少20步才能解决的110个实例时，它的准确率仅为23.63%。

OpenAI o1在处理不可解问题上的表现

o1被宣称能够准确识别无法解决的问题，这是规划能力的一个重要方面。

然而，实验结果显示，在被修改为无法解决的Blocksworld问题上，o1正确识别不可解问题的比例并不高（27%），并且有时会错误地声称可解问题为不可解。

在Blocksworld和随机化Mystery Blocksworld领域，OpenAI的o1-preview在100个无法解决和600个可解决的实例上声称问题无法解决的比率。真阴性率是正确标记为无法解决的无法解决实例的百分比。假阴性率是错误标记为无法解决的可解决实例的百分比。以前的模型在这个表中没有显示，因为它们在所有情况下的真阴性率和假阴性率通常都是0%。

成本和效率考量

o1模型的推理成本远高于传统LLMs，这可能会影响其在实际应用中的可行性。

o1的推理过程缺乏透明度，用户无法控制推理过程中生成的“推理token”数量，这增加了成本的不可预测性。

每100个实例的成本（以美元计）。大型推理模型（LRMs）比大型语言模型（LLMs）的成本要高得多。

最后，论文中对OpenAI o1创造性解释的有趣评论：“虽然我们的主要关注点是提供o1在PlanBench上性能的定量评估，我们也注意到了o1的一个值得评论的特点。当模型给出错误答案时，它有时还会提供一个创造性的、但无意义的解释来为其决定辩护。这几乎就像是o1从产生幻觉变成了操纵他人（“煤气灯效应”（Gaslighting）是一种心理操纵手段）！"

https://arxiv.org/abs/2409.13373LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench