当我们站在人工智能浪潮的前沿,总会感叹科技的不断超越。在这万花筒般复杂的深度学习世界里,巨型推理模型(Large Reasoning Models,简称 LRMs)无疑铸就了一种全新的“思维方式”。然而,当我们追求长链条的严谨逻辑推理时,却发现模型在处理那些本应简单直观的问题时,竟常常“过犹不及”——啰嗦、冗长、效率低下。正是在这背景下,一项引人注目的研究提出了 S1-Bench,一个旨在评估 LRMs 在“直觉式”系统 1 思维能力的新型基准,让我们得以窥见人工智能思维的另一种可能。
🌍 背景启示:从系统 1 到系统 2 思维
“简单即是最高级的复杂。”正如达芬奇所言,这句话在人工智能领域里也蕴含着深刻的哲理。传统大语言模型(LLMs)凭借其直觉、启发式的系统 1 思维方式,往往能迅速回答那些看似简单的问题。然而,最新一代的 LRMs 却有意制造长链条的思考过程,通过复杂的外部链式思维(chain-of-thought, COT)获得对复杂问题的分析能力,这正是系统 2 思维的精髓。
然而,正如科学家们反复推敲实验数据所揭示的——当面对极其简单的问题时,依赖深度推理的 LRMs 却显得不堪重负。它们通常会在正确答案出现后继续无限循环地探索,产生大量多余的“推理废话”。在这种自我