明日直播｜模型死记硬背的推理路径，是真正的智能么？王梦迪组

智源社区

于 2025-02-26 14:22:53 发布

阅读量54

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247553820&idx=1&sn=314a27712f88b05dca61905c6e830bcb&chksm=ff60e08026064ef31f88ea2d21faef4d5d1a6c7ff948ee88ac2d007784fec5f9cc497f369061&scene=126&sessionid=0

版权

报告主题：MATH-Perturb：评估大语言模型在面对复杂改动时的数学推理能力

报告日期：02月27日（本周四）10:30-11:30

报告要点:

大型语言模型在高难度数学推理任务上展现出了令人惊叹的能力，这引发了其是由真正的推理能力还是记忆能力（背题）所驱动的讨论。为了探讨这个问题，先前的研究通过简单改动构建了许多数学基准测试 —— 简单扰动过的问题仍然保留了解决方案的基本推理模式。然而，尚无研究探索“复杂改动”（hard perturbations），即从根本上改变问题的本质，使得原始的解题步骤不再适用。

为弥补这一空白，我们分别通过简单改动和复杂改动构建了MATH-P-Simple 和 MATH-P-Hard。每个数据集包含 279 道改动的数学题，这些题目均源自 MATH 数据集中最难等级的问题。我们在多个模型上观察到 MATH-P-Hard 任务的显著性能下降，包括 o1-mini（下降 16.49%）和 gemini-2.0-flash-thinking（下降 12.9%）。

此外，我们希望引起公众对大语言模型一种新的记忆现象的关注，即模型在不去思考所学解题技能是否适用于修改后的问题时，而是盲目地套用这些技能。这一效应在使用原始问题作为上下文学习（in-context learning）的样本时会被放大。我们呼吁研究界关注这一挑战，因为它对开发更鲁棒且可靠的推理模型至关重要。

报告嘉宾：

黄凯旋现为普林斯顿大学的博士生，师从王梦迪教授。他曾在Google DeepMind公司实习研究大语言模型中的强化微调。在加入普林斯顿大学之前，他在北京大学获得应用数学和计算机科学技术双学位。他的研究兴趣广泛，包括大语言模型的推理(reasoning)，强化学习和对齐技术在大语言模型和扩散生成模型中的应用，生成模型的安全性问题和鲁棒性，以及大语言模型智能体。黄凯旋在2024年获得谷歌PHD奖学金。