大模型常用评测基准汇总2024年最新版

AI因你而升温,记得加个星标哦!

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

通用评测基准

通用评测基准对大模型的上述的各个评测维度进行全面评测,其通常包含多个数据集、多个任务,每个数据集/任务关注评测维度的不同方面,基于此产出评测结果(评分),并基于评分评估大模型的质量&效果,甚至基于此对大模型进行排名。

SuperCLUE

中文通用大模型多轮开放问题测评基准,旨在评估模型在多轮开放领域对话中的能力,包括 基础能力、专业能力和中文特性能力。

  • 基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力

  • 专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力

  • 中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力

C-Eval

全面的中文基础模型评估套件,由上海交通大学,清华大学,爱丁堡大学共同完成,旨在评估和测试大模型在多个学科领域的知识和理解能力,包含13948个多项选择题,涵盖了52个不同的学科和四个难度级别,覆盖人文,社科,理工,其他专业四个大方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值