OpenAI o1多步更复杂规划能力仅为23.63%

前顶会AAAI主席Subbarao Kambhampati发布了首篇评估OpenAI o1推理规划能力的17页论文,并正式将o1-like的LLM更名为LRM(大型推理模型)。

图片

图片

LLM仍然不能很好的规划

尽管LLMs在处理语言相关的任务上取得了显著的进展,但它们在需要复杂规划和推理的任务上仍然表现不佳。

通过使用PlanBench基准测试对多个LLMs进行了评估,包括在Blocksworld(经典的规划领域)问题的静态数据集上测试它们的表现:

  • 在未混淆(常规)Blocksworld问题上,最好的LLMs(如LLaMA 3.1 405B)达到了62.6%的准确率。

  • 然而,在语义相同但句法混淆的Mystery Blocksworld问题上,所有LLMs的表现都远远落后,没有一款模型的准确率超过5%

在Blocksworld和Mystery Blocksworld领域600个实例上的性能,涵盖了使用zero-shot和one-shot提示的不同家族的大型语言模型。表现最好的准确率以粗体显示。

图片

OpenAI o1评测

OpenAI o1模型被设计为一个大型推理模型(LRM),旨在通过新的架构和训练方法来克服传统LLMs的限制。与之前的LLMs相比,o1似乎被训练成了一个近似推理器而不仅仅是一个检索器,o1在PlanBench上的表现:

  • 在PlanBench的静态测试集上,o1模型在Blocksworld问题上的表现显著优于所有其他LLMs,正确回答了97.8%的问题

  • 然而,在Mystery Blocksworld问题上,o1的表现虽然超过所有先前的模型,但准确率也只有52.8%

OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和随机化Mystery Blocksworld领域的600个实例上的性能和平均所需时间。

图片

这些示例来自Mystery Blocksworld。Fast Downward,一个领域无关的规划器[8],几乎瞬间解决所有给定的实例,并保证完美的准确性。大型语言模型(LLMs)甚至在最小的实例上也表现挣扎。测试的两个大型推理模型(LRMs),o1-preview和o1-mini,出人意料地有效,但这种性能仍然不稳定,并且随着长度的增加迅速下降。

图片

OpenAI o1处理更复杂问题的挑战

当问题变得更复杂时,o1模型的性能迅速下降。例如,在需要20到40步解决的更大Blocksworld问题上,o1的准确率仅为23.63%

这表明o1在处理更复杂规划问题时的性能仍然有限,并没有表现出与问题规模无关的稳健性能。

即使是(常规的,未混淆的)Blocksworld数据集扩展到需要更多步骤的问题,也会恶化o1-preview的性能。在测试需要至少20步才能解决的110个实例时,它的准确率仅为23.63%。

图片

OpenAI o1在处理不可解问题上的表现

o1被宣称能够准确识别无法解决的问题,这是规划能力的一个重要方面。

然而,实验结果显示,在被修改为无法解决的Blocksworld问题上,o1正确识别不可解问题的比例并不高(27%),并且有时会错误地声称可解问题为不可解。

在Blocksworld和随机化Mystery Blocksworld领域,OpenAI的o1-preview在100个无法解决和600个可解决的实例上声称问题无法解决的比率。真阴性率是正确标记为无法解决的无法解决实例的百分比。假阴性率是错误标记为无法解决的可解决实例的百分比。以前的模型在这个表中没有显示,因为它们在所有情况下的真阴性率和假阴性率通常都是0%。

图片

成本和效率考量

o1模型的推理成本远高于传统LLMs,这可能会影响其在实际应用中的可行性。

o1的推理过程缺乏透明度,用户无法控制推理过程中生成的“推理token”数量,这增加了成本的不可预测性。

每100个实例的成本(以美元计)。大型推理模型(LRMs)比大型语言模型(LLMs)的成本要高得多。

图片

最后,论文中对OpenAI o1创造性解释的有趣评论:“虽然我们的主要关注点是提供o1在PlanBench上性能的定量评估,我们也注意到了o1的一个值得评论的特点。当模型给出错误答案时,它有时还会提供一个创造性的、但无意义的解释来为其决定辩护。这几乎就像是o1从产生幻觉变成了操纵他人(煤气灯效应”(Gaslighting)是一种心理操纵手段)!"

https://arxiv.org/abs/2409.13373LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值