本文是LLM系列文章,针对《metabench A Sparse Benchmark to Measure General Ability in Large Language Models》的翻译。
摘要
大型语言模型 (LLM) 在一系列任务上的能力各不相同。Open LLM Leaderboard 等举措旨在通过几个大型基准(LLM 可以正确或错误地响应的测试项目集)来量化这些差异。然而,基准分数内部和之间的高度相关性表明 (1) 这些基准衡量存在一小部分共同的潜在能力,并且 (2) 项目利用了冗余信息,因此基准可能会被大大压缩。我们使用来自 n > 5000 个 LLM 的数据来确定 ARC、GSM8K、HellaSwag、MMLU、TruthfulQA 和 WinoGrande 这六个基准中信息量最大的项目(d = 28,总共 632 个项目)。从中,我们提炼出一个稀疏基准测试 metabench,它的大小不到所有六个基准测试原始大小之和的 3%。这个新的稀疏基准测试通过生成基础基准特定能力的估计器来超越分数。我们表明,这些估计量 (1) 可用于重建平均为 1.5% 均方根误差 (RMSE) 的每个原始单独基准分数,(2) 以 0.8% RMSE 重建原始总分,以及 (3&#