主要内容
- 研究背景:大语言模型(LLMs)在泛化能力上表现出色,但在系统推理方面存在问题,常依赖浅层模式匹配和启发式方法。基于强化学习和思维链提示的后训练策略虽有进展,但对由此产生的大推理模型(LRMs)在数学和编程领域之外的推理能力了解不足。
- 相关工作:介绍了空间推理、系统泛化、基于规则的推理与LLMs相关的研究工作,指出当前研究的不足,引出本文使用STaR基准测试评估LLMs和LRMs推理能力的研究。
- STaR问题:STaR基准测试包含空间和时间推理问题,涉及RCC - 8和区间代数(IA)。问题实例以有向标记图形式呈现,需结合多条路径信息推断指定实体间关系,通过控制路径数量和长度调节难度。
- 实验设置:将组合表作为提示的一部分,用整数编码图和答案,以零样本、少样本和微调三种设置评估LLMs和LRMs,使用多个模型在RCC - 8和IA任务上进行实验。
- 实验结果:非推理模型(LLMs)在零样本和少样本设置下表现不佳,微调后虽有提升,但在需要系统推理的实例上仍表现较差。推理模型o3 - mini在零样本设置下,