本文是LLM系列文章,针对《Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings》的翻译。
摘要
大型语言模型 (LLM) 在自然语言处理 (NLP) 方面引起了极大的兴趣,尤其是它们在资源丰富的语言的各种下游任务中的出色表现。最近的研究强调了 LLM 在低资源语言中的局限性,主要集中在二元分类任务上,而对南亚语言的关注最少。这些限制主要归因于数据集稀缺性、计算成本和特定于低资源语言的研究差距等限制。为了解决这一差距,我们通过将英语翻译成孟加拉语、印地语和乌尔都语来提供情感和仇恨言论任务的数据集,从而促进低资源语言处理的研究。此外,我们使用英语和广泛使用的南亚语言的多个 LLM 全面研究了零样本学习。我们的研究结果表明,GPT-4 的性能始终优于 Llama 2 和 Gemini,与低资源语言相比,英语在各种任务中始终表现出卓越的表现。此外,我们的分析表明,自然语言推理 (NLI) 在评估的任务中表现出最高的性能,GPT-4 表现出卓越的能力。