MGSM
文章提出了一个新的基准——Multilingual Grade School Math (MGSM),专门用于评估多语言数学推理能力
1. 研究背景与动机
- 大型语言模型(LLMs)在英语任务中的多步推理能力已得到广泛研究,例如通过链式推理(Chain of Thought, CoT)提高模型表现。
- 然而,多语言环境中的复杂推理能力尚未得到充分研究,特别是在需要数学推理的任务上。
研究目标:
- 探索语言模型在不同语言上的推理能力。
- 评估链式推理在多语言环境中的有效性。
- 研究训练数据中语言频率对推理性能的影响。
2. MGSM基准数据集
- 数据来源:
- MGSM扩展自GSM8K数据集(一个英语小学数学题目集),包含250个经过手动翻译的问题。
- 目标语言覆盖10种语言,横跨8个语言家族,包括高频语言(如中文、法语)和低频语言(如泰卢固语、斯瓦希里语)。
- 数据特点:
- 每道题需要2到8步推理。
- 所有问题和答案以阿拉伯数字表示,确保跨语言一致性。
- 数据处理:
- 所有翻译由专业译者完成,并经过质量验证,避免使用机器翻译工具。
3. 实验设计
- 模型与方法:
- 使用GPT-3和PaLM两种模型进行实验。
- 比较四种不同的推理提示方式:
- DIRECT:直接预测答案,无中间推理步骤。
- NATIVE-COT:在问题语言中提供链式推理。
- EN-COT:使用英语进行链式推理。
- TRANSLATE-EN:将问题翻译为英语后进行链式推理。
- 评价指标:
- 使用问题的正确解答率(accuracy)作为主要指标。
- 对比高频语言与低频语言的表现,分析模型在语言频率上的表现差异。
4. 实验结果
- 整体表现:
- 在MGSM基准上,PaLM-540B在最佳设置下的平均解答率达到55%,显著高于其他模型。
- 所有模型均在链式推理(COT)下表现优于直接预测(DIRECT)。
- 链式推理的效果:
- EN-COT的表现普遍优于NATIVE-COT,表明在多语言环境下使用英语作为中间推理语言更具优势。
- TRANSLATE-EN达到或超过EN-COT的表现,进一步验证英语推理的有效性。
- 语言频率的影响:
- 低频语言(如斯瓦希里语、孟加拉语)的表现仅比高频语言低3%,显示模型具有一定的跨语言泛化能力。
- 模型规模的影响:
- 更大的模型(如PaLM-540B)在所有语言上表现更好,说明推理能力是语言模型的“涌现能力”。
5. 其他推理任务扩展
- XCOPA任务:
- 在因果常识推理任务XCOPA上,PaLM-540B通过EN-COT设置实现了新的SOTA表现(89.9%)。
- XL-WiC任务:
- 在语境中词义判断任务XL-WiC上,PaLM-540B也表现出色,但链式推理未显著提升性能。
6. 研究结论
- MGSM作为首个多语言数学推理基准,为研究多语言环境下的模型能力提供了重要工具。
- 链式推理(尤其是英语推理)显著提升了模型在多语言任务中的推理表现。
- 模型的推理能力与训练数据中语言频率的相关性较低,表现出跨语言迁移的潜力。