大模型测评常用benchmark对应原始论文介绍(四)——多语言能力

MGSM

文章提出了一个新的基准——Multilingual Grade School Math (MGSM),专门用于评估多语言数学推理能力


1. 研究背景与动机
  • 大型语言模型(LLMs)在英语任务中的多步推理能力已得到广泛研究,例如通过链式推理(Chain of Thought, CoT)提高模型表现。
  • 然而,多语言环境中的复杂推理能力尚未得到充分研究,特别是在需要数学推理的任务上。

研究目标

  • 探索语言模型在不同语言上的推理能力。
  • 评估链式推理在多语言环境中的有效性。
  • 研究训练数据中语言频率对推理性能的影响。

2. MGSM基准数据集
  1. 数据来源
    • MGSM扩展自GSM8K数据集(一个英语小学数学题目集),包含250个经过手动翻译的问题。
    • 目标语言覆盖10种语言,横跨8个语言家族,包括高频语言(如中文、法语)和低频语言(如泰卢固语、斯瓦希里语)。
  2. 数据特点
    • 每道题需要2到8步推理。
    • 所有问题和答案以阿拉伯数字表示,确保跨语言一致性。
  3. 数据处理
    • 所有翻译由专业译者完成,并经过质量验证,避免使用机器翻译工具。

3. 实验设计
  1. 模型与方法
    • 使用GPT-3和PaLM两种模型进行实验。
    • 比较四种不同的推理提示方式:
      • DIRECT:直接预测答案,无中间推理步骤。
      • NATIVE-COT:在问题语言中提供链式推理。
      • EN-COT:使用英语进行链式推理。
      • TRANSLATE-EN:将问题翻译为英语后进行链式推理。
  2. 评价指标
    • 使用问题的正确解答率(accuracy)作为主要指标。
    • 对比高频语言与低频语言的表现,分析模型在语言频率上的表现差异。

4. 实验结果
  1. 整体表现
    • 在MGSM基准上,PaLM-540B在最佳设置下的平均解答率达到55%,显著高于其他模型。
    • 所有模型均在链式推理(COT)下表现优于直接预测(DIRECT)。
  2. 链式推理的效果
    • EN-COT的表现普遍优于NATIVE-COT,表明在多语言环境下使用英语作为中间推理语言更具优势。
    • TRANSLATE-EN达到或超过EN-COT的表现,进一步验证英语推理的有效性。
  3. 语言频率的影响
    • 低频语言(如斯瓦希里语、孟加拉语)的表现仅比高频语言低3%,显示模型具有一定的跨语言泛化能力。
  4. 模型规模的影响
    • 更大的模型(如PaLM-540B)在所有语言上表现更好,说明推理能力是语言模型的“涌现能力”。

5. 其他推理任务扩展
  1. XCOPA任务:
    • 在因果常识推理任务XCOPA上,PaLM-540B通过EN-COT设置实现了新的SOTA表现(89.9%)。
  2. XL-WiC任务:
    • 在语境中词义判断任务XL-WiC上,PaLM-540B也表现出色,但链式推理未显著提升性能。

6. 研究结论
  • MGSM作为首个多语言数学推理基准,为研究多语言环境下的模型能力提供了重要工具。
  • 链式推理(尤其是英语推理)显著提升了模型在多语言任务中的推理表现。
  • 模型的推理能力与训练数据中语言频率的相关性较低,表现出跨语言迁移的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值