LLM Reasoning能力最近大跃进？不，都是「水分」！-CSDN博客

本文链接：https://blog.csdn.net/qq_27590277/article/details/147186194

为什么语言模型推理能力的评估「水分」这么大？

近几年，ChatGPT、Claude等大模型的「数学解题」「逻辑推理」能力突飞猛进，各大实验室争相发布「突破性成果」。但论文一针见血地指出：很多所谓的进步，可能只是评测标准不统一导致的假象！

论文：A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
链接：https://arxiv.org/pdf/2504.07086

比如，同一道数学题，模型答案的正确率可能因为以下「玄学因素」剧烈波动：

更夸张的是，许多论文评测时只用30道题的小数据集（如AIME’24）。这种情况下，多答对1题就能让正确率提升3%，导致结果毫无说服力。

为了验证这些「玄学因素」，作者做了大量实验：

最讽刺的是，某些论文宣称的「RL方法提升10%」，在统一评测标准后，实际改进连统计显著性都没有。

论文最颠覆的结论是：当前强化学习（RL）对推理能力的提升被严重高估，而监督微调（SFT）才是「低调的实力派」。

RL的尴尬：
- 在蒸馏模型（如DeepSeek-R1）上，RL训练几乎无提升，甚至可能过拟合小数据集（如AIME’24）。
- 换到新数据集（如AIME’25），RL模型的性能直接「跳水」。
SFT的稳定：
- 用高质量解题步骤数据做监督微调，模型在多个基准上表现稳定，且能泛化到新任务（如OlympiadBench）。
- 例如，OpenThinker模型在标准化评测中全面碾压RL方法。

论文甚至调侃：「RL训练像买彩票，SFT才是存定期」。