Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models

主要内容

  1. 研究背景:大语言模型(LLMs)在泛化能力上表现出色,但在系统推理方面存在问题,常依赖浅层模式匹配和启发式方法。基于强化学习和思维链提示的后训练策略虽有进展,但对由此产生的大推理模型(LRMs)在数学和编程领域之外的推理能力了解不足。
  2. 相关工作:介绍了空间推理、系统泛化、基于规则的推理与LLMs相关的研究工作,指出当前研究的不足,引出本文使用STaR基准测试评估LLMs和LRMs推理能力的研究。
  3. STaR问题:STaR基准测试包含空间和时间推理问题,涉及RCC - 8和区间代数(IA)。问题实例以有向标记图形式呈现,需结合多条路径信息推断指定实体间关系,通过控制路径数量和长度调节难度。
  4. 实验设置:将组合表作为提示的一部分,用整数编码图和答案,以零样本、少样本和微调三种设置评估LLMs和LRMs,使用多个模型在RCC - 8和IA任务上进行实验。
  5. 实验结果:非推理模型(LLMs)在零样本和少样本设置下表现不佳,微调后虽有提升,但在需要系统推理的实例上仍表现较差。推理模型o3 - mini在零样本设置下,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值