本文是LLM系列文章,针对《ConceptMath: A Bilingual Concept-wise Benchmark for Measuring
Mathematical Reasoning of Large Language Models》的翻译。
摘要
本文介绍了ConceptMath,这是一个中英文对照的细粒度基准,用于评估大型语言模型(LLM)的概念数学推理。与以平均精度评估一般数学推理的传统基准不同,ConceptMath将数学问题系统地组织在数学概念的层次结构下,从而可以以不同的粒度以概念精度评估数学推理。基于我们的ConcepthMath,我们评估了广泛的LLM,并观察到现有的LLM尽管在传统基准上实现了高平均精度,但在不同的数学概念中表现出显著的性能差异,甚至可能在最基本的概念上灾难性地失败。此外,我们还引入了一种有效的微调策略,以增强现有LLM的弱点。最后,我们希望ConceptMath能够引导开发人员了解他们模型的细粒度数学能力,并促进基础模型的发展。