OMGEVAL：An Open Multilingual Generative Evaluation Benchmark for Large Language Models

最新推荐文章于 2025-06-13 10:17:23 发布

UnknownBody

最新推荐文章于 2025-06-13 10:17:23 发布

阅读量138

点赞数

分类专栏： LLM Evaluation 文章标签：语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/138216824

版权

LLM Evaluation 同时被 2 个专栏收录

85 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

828 篇文章

已下架不支持订阅

OMGEval是首个开源的多语言生成评估基准，专注于测试大型语言模型在不同语言中的表现，包括知识、逻辑推理等方面。目前涵盖5种语言，通过GPT-4进行自动评分，旨在促进LLM的多语言能力研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《OMGEVAL：An Open Multilingual Generative Evaluation Benchmark for Large Language Models》的翻译。

OMGEVAL:一个开放的大型语言模型多语言生成评估基准

摘要
1 引言
2 背景
3 数据收集
4 实验
5 相关工作
6 结论
8 局限性

摘要

现代大型语言模型（LLM）通常应使来自世界各地不同文化背景的个人受益。然而，最新的LLM高级生成性评估基准主要集中在英语上。为此，我们介绍了OMGEval，这是第一个开源多语言生成测试集，可以评估LLM在不同语言中的能力。对于每种语言，OMGEval提供了804个开放式问题，涵盖了LLM的广泛重要功能，如一般知识、逻辑推理等。每个问题都经过人工注释器的严格验证。值得注意的是，为了充分反映LLM在不同文化背景下的兼容性，我们对每种非英语语言进行了本地化。具体而言，OMGEval的当前版本包括5种语言（即Zh、Ru、Fr、Es、Ar）。继AlpacaEval之后，我们使用GPT-4作为评判器来自动对不同的模型输出进行评分，这与人类评估密切相关。我们在建议的OMGEval上评估了几个具有代表性的多语言LLM，我们相信这将为社区进一步了解和提高LLM的多语言能力提供宝贵的参考。OMGEval可在https://github.com/blcuicall/OMGEval访问.

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。