SciBench | LLM 解决大学水平科学问题的能力
动机:大多数 LLM 基准都集中于高中科目的问题,并且仅限于初等代数运算。为了系统地检查解决复杂科学问题所需的推理能力,我们引入了适用于 LLMs 扩展基准套件 SciBench。工作概括:SciBench 包含一个精心构造的数据集,其中包含数学、化学和物理领域的一系列大学级别的科学问题。实验结果:基于该数据集,我们对具有各种提示策略的代表性开源和私有 LLM进行了深入的基准测试研究。结果显示,目前 LLMs 成绩还不够理想,总体最好成绩仅为 43.22%。实验结论。
原创
2024-10-08 23:40:45 ·
395 阅读 ·
0 评论