大模型测评常用benchmark对应原始论文介绍（四）——多语言能力

最新推荐文章于 2025-04-28 22:01:42 发布

ALGORITHM LOL

最新推荐文章于 2025-04-28 22:01:42 发布

阅读量1k

点赞数 20

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_60388871/article/details/144031187

版权

文章提出了一个新的基准——Multilingual Grade School Math (MGSM)，专门用于评估多语言数学推理能力

研究目标：

数据来源：
- MGSM扩展自GSM8K数据集（一个英语小学数学题目集），包含250个经过手动翻译的问题。
- 目标语言覆盖10种语言，横跨8个语言家族，包括高频语言（如中文、法语）和低频语言（如泰卢固语、斯瓦希里语）。
数据特点：
- 每道题需要2到8步推理。
- 所有问题和答案以阿拉伯数字表示，确保跨语言一致性。
数据处理：
- 所有翻译由专业译者完成，并经过质量验证，避免使用机器翻译工具。

模型与方法：
- 使用GPT-3和PaLM两种模型进行实验。
- 比较四种不同的推理提示方式：
  - DIRECT：直接预测答案，无中间推理步骤。
  - NATIVE-COT：在问题语言中提供链式推理。
  - EN-COT：使用英语进行链式推理。
  - TRANSLATE-EN：将问题翻译为英语后进行链式推理。
评价指标：
- 使用问题的正确解答率（accuracy）作为主要指标。
- 对比高频语言与低频语言的表现，分析模型在语言频率上的表现差异。

整体表现：
- 在MGSM基准上，PaLM-540B在最佳设置下的平均解答率达到55%，显著高于其他模型。
- 所有模型均在链式推理（COT）下表现优于直接预测（DIRECT）。
链式推理的效果：
- EN-COT的表现普遍优于NATIVE-COT，表明在多语言环境下使用英语作为中间推理语言更具优势。
- TRANSLATE-EN达到或超过EN-COT的表现，进一步验证英语推理的有效性。
语言频率的影响：
- 低频语言（如斯瓦希里语、孟加拉语）的表现仅比高频语言低3%，显示模型具有一定的跨语言泛化能力。
模型规模的影响：
- 更大的模型（如PaLM-540B）在所有语言上表现更好，说明推理能力是语言模型的“涌现能力”。