GLUE/TREC/TAC/SemEval/KDDCup等NLP/IR权威评测

百态老人

于 2024-11-18 11:19:19 发布

阅读量277

点赞数 4

文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41429382/article/details/143772715

版权

目前自然语言处理领域有众多权威评测，其中一些较为知名的包括智源研究院举办的大模型评测。2024 年 5 月 17 日，智源研究院推出智源评测体系，发布国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力；针对多模态模型则主要评估了多模态理解和生成能力。

此外，复旦大学 NLP（自然语言处理）实验室 LLMEVAL 团队发布了 2024 年高考数学大模型评测结果，其中讯飞星火和通义千问表现突出，分别在高考数学新 I 卷和高考数学新 II 卷中分列前两名，而 GPT-4o 则在两份考卷的评测中均位列第三。

在国际 NLP 领域，有大名鼎鼎的数据集 GLUE 和 SuperGLUE，非常权威，OpenAI、谷歌等的大模型都在上面评测，极大推动了 NLP 领域的发展。而中文通用大模型基准（SuperCLUE）评测公布的最新结果中，GPT-4 遥遥领先，国内成绩最好的是科大讯飞的星火认知大模型。但需要注意的是，SuperCLUE 评测的发起方为 Chinese GLUE 组织（简称 CLUE），CLUE 是仿照 GLUE 由国内民间组织的评测，权威度和影响力与 GLUE 相比差很远。

在大模型的评测中，不同的评测体系会有不同的侧重点和结果。随着自然语言处理技术的不断发展，相信会有更多更权威的评测出现，以推动该领域的持续进步。

GLUE 评测的侧重点是什么

GLUE 评测（General Language Understanding Evaluation）由纽约大学、华盛顿大学和谷歌 DeepMind 共同举办，旨在评测模型在通用自然语言理

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

百态老人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。