明日直播|模型死记硬背的推理路径,是真正的智能么?王梦迪组

图片

报告主题:MATH-Perturb:评估大语言模型在面对复杂改动时的数学推理能力

报告日期:02月27日(本周四)10:30-11:30

报告要点:

大型语言模型在高难度数学推理任务上展现出了令人惊叹的能力,这引发了其是由真正的推理能力还是记忆能力(背题)所驱动的讨论。为了探讨这个问题,先前的研究通过简单改动构建了许多数学基准测试 —— 简单扰动过的问题仍然保留了解决方案的基本推理模式。然而,尚无研究探索“复杂改动”(hard perturbations),即从根本上改变问题的本质,使得原始的解题步骤不再适用。

为弥补这一空白,我们分别通过简单改动和复杂改动构建了MATH-P-Simple 和 MATH-P-Hard。每个数据集包含 279 道改动的数学题,这些题目均源自 MATH 数据集中最难等级的问题。我们在多个模型上观察到 MATH-P-Hard 任务的显著性能下降,包括 o1-mini(下降 16.49%)和 gemini-2.0-flash-thinking(下降 12.9%)。

此外,我们希望引起公众对大语言模型一种新的记忆现象的关注,即模型在不去思考所学解题技能是否适用于修改后的问题时,而是盲目地套用这些技能。这一效应在使用原始问题作为上下文学习(in-context learning)的样本时会被放大。我们呼吁研究界关注这一挑战,因为它对开发更鲁棒且可靠的推理模型至关重要。

报告嘉宾:

黄凯旋现为普林斯顿大学的博士生,师从王梦迪教授。他曾在Google DeepMind公司实习研究大语言模型中的强化微调。在加入普林斯顿大学之前,他在北京大学获得应用数学和计算机科学技术双学位。他的研究兴趣广泛,包括大语言模型的推理(reasoning),强化学习和对齐技术在大语言模型和扩散生成模型中的应用,生成模型的安全性问题和鲁棒性,以及大语言模型智能体。黄凯旋在2024年获得谷歌PHD奖学金。

图片

扫码报名


更多热门报告

b4512ea9e982305679997ef268ef605c.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值