自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_39517117的博客

论文阅读

关注

文章平均质量分 90

关注数：文章数：1 文章阅读量：1 文章收藏量：8

作者: 致宏Rex

数学控，技术宅

展开

SciBench | LLM 解决大学水平科学问题的能力

动机：大多数 LLM 基准都集中于高中科目的问题，并且仅限于初等代数运算。为了系统地检查解决复杂科学问题所需的推理能力，我们引入了适用于 LLMs 扩展基准套件 SciBench。工作概括：SciBench 包含一个精心构造的数据集，其中包含数学、化学和物理领域的一系列大学级别的科学问题。实验结果：基于该数据集，我们对具有各种提示策略的代表性开源和私有 LLM进行了深入的基准测试研究。结果显示，目前 LLMs 成绩还不够理想，总体最好成绩仅为 43.22%。实验结论。

原创 2024-10-08 23:40:45 · 395 阅读 · 0 评论