本文是LLM系列文章,针对《Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models - A Survey》的翻译。
摘要
大型语言模型(LLM)最近在涉及推理的任务中表现出了令人印象深刻的性能,这引发了关于这些模型是否具有与人类相似的推理能力的激烈争论。然而,尽管取得了这些成功,LLM的推理能力的深度仍然不确定。这种不确定性部分源于主要关注任务表现,通过肤浅的准确性指标来衡量,而不是对模型推理行为的彻底调查。本文试图通过对超越任务准确性的研究进行全面回顾来解决这一差距,为模型的推理过程提供更深入的见解。此外,我们调查了评估LLM推理行为的流行方法,强调了当前趋势和对更细致的推理分析的努力。我们的综述表明,LLM往往依赖于训练数据中的表面模式和相关性,而不是真正的推理能力。此外,我们还确定了进一步研究的必要性,以阐明人类推理和基于LLM的推理之间的关键差异。通过这项调查,我们旨在揭示LLM中复杂的推理过程。