大模型论文:评估印度语 LLM 生成能力的多语言基准测试

研究表明,虽然PaLM-2在IndicGenBench中的多语言生成任务中表现出色,但与英语相比,其他印度语言存在明显性能差距,强调了开发包容性多语言模型的必要性。IndicGenBench提供了丰富的印度语评估数据,以推动这一领域的研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

IndicGenBench是一个多语言基准测试,用于评估大型语言模型在处理29种印度语言的生成任务上的性能。该研究发现,尽管PaLM-2模型表现最佳,但与英语相比,所有语言都存在显著的性能差距,表明需要进一步研究以发展更具包容性的多语言模型。

随着大型语言模型 (LLM) 在全球范围内的采用率越来越高,LLM 必须代表世界的语言多样性。印度是一个拥有 14 亿人口的语言多元化国家。为了促进对多语言 LLM 评估的研究,我们发布了 IndicGenBench - 用于评估 LLM 在涵盖 13 种脚本和 4 个语言家族的 29 种印度语中面向用户的生成任务的最大基准。IndicGenBench 由多种生成任务组成,例如跨语言摘要、机器翻译和跨语言问答。IndicGenBench 通过人工管理将现有基准扩展到许多印度语,首次为许多代表性不足的印度语提供多路并行评估数据。我们在各种设置中评估了各种专有和开源 LLM,包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA。最大的 PaLM-2 模型在大多数任务中表现最好,然而,与英语相比,所有语言的性能都存在显着差距,这表明需要进一步研究以开发更具包容性的多语言语言模型。IndicGenBench 在此 http URL 上发布
在这里插入图片描述

在这里插入图片描述

想要论文资源的可以找我要
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值