IndicGenBench是一个多语言基准测试,用于评估大型语言模型在处理29种印度语言的生成任务上的性能。该研究发现,尽管PaLM-2模型表现最佳,但与英语相比,所有语言都存在显著的性能差距,表明需要进一步研究以发展更具包容性的多语言模型。
随着大型语言模型 (LLM) 在全球范围内的采用率越来越高,LLM 必须代表世界的语言多样性。印度是一个拥有 14 亿人口的语言多元化国家。为了促进对多语言 LLM 评估的研究,我们发布了 IndicGenBench - 用于评估 LLM 在涵盖 13 种脚本和 4 个语言家族的 29 种印度语中面向用户的生成任务的最大基准。IndicGenBench 由多种生成任务组成,例如跨语言摘要、机器翻译和跨语言问答。IndicGenBench 通过人工管理将现有基准扩展到许多印度语,首次为许多代表性不足的印度语提供多路并行评估数据。我们在各种设置中评估了各种专有和开源 LLM,包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA。最大的 PaLM-2 模型在大多数任务中表现最好,然而,与英语相比,所有语言的性能都存在显着差距,这表明需要进一步研究以开发更具包容性的多语言语言模型。IndicGenBench 在此 http URL 上发布
想要论文资源的可以找我要