开放 LLM 排行榜: 深入研究 DROP

原创

于 2024-01-15 18:30:47 发布

· 1k 阅读

23 ·

版权

文章标签：

#人工智能 #python #机器学习 #深度学习 #开发语言

文章探讨了开放LLM排行榜中的DROP评估中，模型F1分数异常低的现象，发现主要问题是文本规范化处理导致数字答案匹配失败。通过深入研究，揭示了浮点数答案处理和生成停止词设置的问题，提出使用作为停止词的解决方案。文章强调了社区合作在发现和解决基准测试问题的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近，开放 LLM 排行榜 迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP，它们都使用了 EleutherAI Harness 的原始实现。一眼望去，我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)！我们对此进行了深入调查以一探究竟，请随我们一起踏上发现之旅吧！

初步观察

在 DROP (Discrete Reasoning Over Paragraphs，段落级离散推理) 评估中，模型需要先从英文文段中提取相关信息，然后再对其执行离散推理 (例如，对目标对象进行排序或计数以得出正确答案，如下图中的例子)。其使用的指标是自定义 F1 以及精确匹配分数。

基于文段的推理示例

三周前，我们将 DROP 添加至开放 LLM 排行榜中，然后我们观察到预训练模型的 DROP F1 分数有个奇怪的趋势: 当我们把排行榜所有原始基准 (ARC、HellaSwag、TruthfulQA 和 MMLU) 的平均分 (我们认为其一定程度上代表了模型的总体性能) 和 DROP 分数作为两个轴绘制散点图时，我们本来希望看到 DROP 分数与原始均分呈正相关的关系 (即原始均值高的模型，DROP 分数也应更高)。然而，事实证明只有少数模型符合这一预期，其他大多数模型的 DROP F1 分数都非常低，低于 10。

最低0.47元/天解锁文章