大模型常用评测基准汇总2024年最新版

最新推荐文章于 2025-04-26 20:43:57 发布

AI大模型学习

最新推荐文章于 2025-04-26 20:43:57 发布

阅读量1.4k

点赞数 26

分类专栏：大模型文章标签：大模型 agi ai 人工智能 ai大模型 llm agent

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Python966/article/details/141255582

版权

AI因你而升温，记得加个星标哦！

基于评测维度，考虑到各评测集关注的评测维度，可以将其划分为通用评测基准和具体评测基准。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

文章目录

通用评测基准
具体评测基准
总结
CSDN独家福利

通用评测基准

通用评测基准对大模型的上述的各个评测维度进行全面评测，其通常包含多个数据集、多个任务，每个数据集/任务关注评测维度的不同方面，基于此产出评测结果（评分），并基于评分评估大模型的质量&效果，甚至基于此对大模型进行排名。

SuperCLUE

中文通用大模型多轮开放问题测评基准，旨在评估模型在多轮开放领域对话中的能力，包括基础能力、专业能力和中文特性能力。

基础能力: 包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力
专业能力: 包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等 50 多项能力
中文特性能力: 针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等 10 项多种能力

C-Eval

全面的中文基础模型评估套件，由上海交通大学，清华大学，爱丁堡大学共同完成，旨在评估和测试大模型在多个学科领域的知识和理解能力，包含13948个多项选择题，涵盖了52个不同的学科和四个难度级别，覆盖人文，社科，理工，其他专业四个大方向。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。