GLUE/TREC/TAC/SemEval/KDDCup等NLP/IR权威评测

目前自然语言处理领域有众多权威评测,其中一些较为知名的包括智源研究院举办的大模型评测。2024 年 5 月 17 日,智源研究院推出智源评测体系,发布国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。

此外,复旦大学 NLP(自然语言处理)实验室 LLMEVAL 团队发布了 2024 年高考数学大模型评测结果,其中讯飞星火和通义千问表现突出,分别在高考数学新 I 卷和高考数学新 II 卷中分列前两名,而 GPT-4o 则在两份考卷的评测中均位列第三。

在国际 NLP 领域,有大名鼎鼎的数据集 GLUE 和 SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了 NLP 领域的发展。而中文通用大模型基准(SuperCLUE)评测公布的最新结果中,GPT-4 遥遥领先,国内成绩最好的是科大讯飞的星火认知大模型。但需要注意的是,SuperCLUE 评测的发起方为 Chinese GLUE 组织(简称 CLUE),CLUE 是仿照 GLUE 由国内民间组织的评测,权威度和影响力与 GLUE 相比差很远。

在大模型的评测中,不同的评测体系会有不同的侧重点和结果。随着自然语言处理技术的不断发展,相信会有更多更权威的评测出现,以推动该领域的持续进步。

GLUE 评测的侧重点是什么

GLUE 评测(General Language Understanding Evaluation)由纽约大学、华盛顿大学和谷歌 DeepMind 共同举办,旨在评测模型在通用自然语言理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百态老人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值