摘要:以往的多语言基准测试主要集中在简单的理解任务上,但对于大型语言模型(LLM)而言,我们强调的是其在遵循指令、推理、长上下文理解、代码生成等方面的熟练度。然而,跨语言衡量这些高级能力的研究尚不充分。为了解决这个问题,我们推出了BenchMAX,这是一个多维度的多语言评估基准,能够跨语言对这些重要能力进行公平比较。为了确保高质量,在所有任务中,每个样本都会由三名不同的母语标注者独立进行标注,这些数据事先已从英文机器翻译成其他16种语言。此外,我们还提出了在数据集构建过程中遇到的一个新的翻译挑战。在BenchMAX上进行的大量实验揭示了不同语言在核心能力上的效果差异,凸显了仅通过扩大模型规模无法弥补的性能差距。BenchMAX作为一个全面的多语言评估平台,为推动多语言语言模型的发展提供了一个有前景的测试环境。数据集和代码已公开可用。Huggingface链接:Paper page,论文链接:2502.07346
一、引言
随着大型语言模型(LLMs)的快速发展,其在多语言环境下的表现成为了研究的热点。然而,以往的多语言基准测试主要关注简单的理解任务,如机器翻译、文本分类等,而对于LLMs在遵循指令、推理、长上下文理解、代码生成等高级能力上的评估则显得不足。为了填补这一空白,本文提出了BenchMAX,一个全面的多语言评估套件,旨在跨语言公平地比较LLMs的这些重要能力。
二、BenchMAX概述
2.1 设计目标
BenchMAX的设计目标包括:
- 全面评估:涵盖指令遵循、推理、长上下文理解、代码生成等多个维度,以全面评估LLMs的多语言能力。
- 多语言支持:支持17种语言,包括高资源语言(如英语、法语、中文)和低资源语言(如泰卢固语、斯瓦希里语),以反映真实世界中的多语言场景。
- 高质量数据:所有任务数据均经过机器翻译和多次人工后编辑,确保数据质量。
- 公开透明:数据集和代码公开可用,促进研究的可复现性和公平性。
2.2 主要贡献
BenchMAX的主要贡献包括:
- 多维评估框架:提出了一个包含十个任务的多维评估框架,以全面衡量LLMs的多语言能力。
- 大规模数据集:构建了一个包含约30,000个样本的大规模数据集,覆盖17种语言。
- 翻译挑战:揭示了数据集构建过程中遇到的翻译挑战,并提出了相应的解决方案。
- 性能分析:在BenchMAX上对多个LLMs进行了评估,分析了它们在不同语言上的性能差异。
三、评估框架与任务设计
3.1 评估框架
BenchMAX的评估框架包括以下几个维度:
- 指令遵循:评估LLMs理解和执行指令的能力。
- 推理:评估LLMs在逻辑推理、数学和科学推理等方面的能力。
- 长上下文理解:评估LLMs处理长文本序列的能力。
- 代码生成:评估LLMs自动生成代码的能力。
- 工具使用:评估LLMs调用外部工具函数的能力。
- 翻译:评估LLMs在机器翻译任务上的表现。
3.2 任务设计
BenchMAX设计了以下十个任务来覆盖上述评估维度:
- 规则性指令遵循:基于IFEval数据集,评估LLMs对可验证指令的准确执行。
- 模型性指令遵循:基于Arena-hard数据集,评估LLMs在现实世界指令上的表现。
- 函数完成:基于HumanEval+数据集,要求LLMs完成给定的Python函数。
- 问题解决:基于LiveCodeBench数据集,评估LLMs解决编程问题的能力。
- 数学推理:基于MGSM数据集,评估LLMs解决数学推理问题的能力。
- 科学推理:基于GPQA数据集,评估LLMs在生物学、物理学和化学等领域的推理能力。
- 长上下文问答:基于RULER数据集,评估LLMs在长文本序列上的问答能力。
- 多函数选择:基于Nexus数据集,评估LLMs从多个函数选项中选择并调用一个函数的能力。
- 通用翻译:基于Flores-200、TED和WMT24数据集,评估LLMs在通用文本翻译任务上的表现。
- 领域翻译:评估LLMs在特定领域(如科学、编程)文本翻译任务上的表现。
四、数据集构建
4.1 数据收集与翻译
BenchMAX的数据集构建过程包括以下几个步骤:
- 数据收集:从现有的公开数据集中收集任务数据,如IFEval、Arena-hard、HumanEval+等。
- 机器翻译:使用机器翻译工具将英文数据翻译成其他16种语言。
- 人工后编辑:邀请三名母语标注者对机器翻译后的数据进行独立标注和编辑,确保数据质量。
4.2 翻译挑战与解决方案
在数据集构建过程中,遇到了以下翻译挑战:
- 关键词提取:在规则性指令遵循任务中,需要提取并保留指令中的关键词,以确保验证的准确性。
- 代码与文本区分:在函数完成和问题解决任务中,需要区分应翻译的代码注释和不应翻译的代码本身。
- 领域专业性:在科学推理和领域翻译任务中,需要处理具有领域专业性的文本,这对机器翻译工具提出了更高要求。
针对上述挑战,本文提出了以下解决方案:
- 使用特殊符号标记关键词,以便在机器翻译后提取和验证。
- 使用GPT-4o等LLMs辅助翻译,确保代码注释的正确翻译。
- 对机器翻译后的文本进行多次人工后编辑,以提高翻译质量。
五、模型评估与结果分析
5.1 模型选择
本文选择了多个具有代表性的LLMs进行评估,包括Llama3.1、Qwen2.5、Aya-Expanse、Gemma2、InternLM2.5和DeepSeek-V3等。这些模型在参数规模、训练数据和预训练策略上各不相同,能够全面反映当前LLMs的发展水平。
5.2 评估指标
针对不同任务,本文采用了不同的评估指标:
- 指令遵循:采用准确率(Accuracy)作为评估指标。
- 代码生成:采用通过率(Pass Rate)作为评估指标,即生成的代码能否通过所有测试用例。
- 推理和问答:采用准确率(Accuracy)作为评估指标。
- 翻译:采用spBLEU、TER和X COMET等自动评价指标,以及人工评估的翻译保留率(Retention Rate)作为评估指标。
5.3 结果分析
在BenchMAX上对多个LLMs进行评估后,本文得出了以下结论:
- 模型规模与性能:随着模型规模的增大,LLMs在多语言任务上的整体性能得到提升。然而,这种提升并不总是均匀的,某些任务或语言上的性能提升可能更为显著。
- 语言差异:LLMs在不同语言上的表现存在显著差异。高资源语言(如英语、法语)上的性能通常优于低资源语言(如泰卢固语、斯瓦希里语)。这种差异可能源于训练数据的不平衡以及语言本身的复杂性。
- 能力差异:LLMs在不同能力上的表现也存在显著差异。例如,某些模型在指令遵循和代码生成任务上表现出色,但在推理和长上下文理解任务上则表现平平。
- 翻译挑战:领域翻译任务揭示了机器翻译工具在处理具有领域专业性的文本时面临的挑战。传统的自动评价指标(如spBLEU)可能无法准确反映翻译质量,需要结合人工评估进行综合考量。
六、讨论与未来工作
6.1 讨论
本文讨论了BenchMAX在评估LLMs多语言能力方面的优势和不足:
- 优势:BenchMAX提供了一个全面的评估框架,能够跨语言公平地比较LLMs的重要能力。通过大规模的数据集和高质量的数据标注,BenchMAX为LLMs的多语言评估提供了有力的支持。
- 不足:尽管BenchMAX在评估LLMs多语言能力方面取得了显著进展,但仍存在一些不足。例如,数据集构建过程中的翻译挑战尚未完全解决;某些任务或语言上的评估指标可能不够准确或全面。
6.2 未来工作
针对BenchMAX的不足,本文提出了以下未来工作方向:
- 改进翻译方法:探索更先进的机器翻译技术和人工后编辑方法,以提高数据集的质量。
- 完善评估指标:结合自动评价和人工评估的优势,开发更准确的评估指标来全面反映LLMs的多语言能力。
- 扩展数据集:增加更多的任务和语言,以更全面地评估LLMs的多语言能力。
- 促进研究交流:通过公开数据集和代码,促进研究者之间的交流和合作,共同推动多语言语言模型的发展。
七、结论
本文提出了BenchMAX,一个全面的多语言评估套件,用于评估大型语言模型在指令遵循、推理、长上下文理解、代码生成等方面的高级能力。通过大规模的数据集和高质量的数据标注,BenchMAX为LLMs的多语言评估提供了有力的支持。在BenchMAX上进行的实验揭示了LLMs在不同语言和能力上的表现差异,为未来的研究提供了有价值的参考。BenchMAX作为一个开放的平台,将促进多语言语言模型的发展和应用。