AI因你而升温,记得加个星标哦!
基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
文章目录
通用评测基准
通用评测基准对大模型的上述的各个评测维度进行全面评测,其通常包含多个数据集、多个任务,每个数据集/任务关注评测维度的不同方面,基于此产出评测结果(评分),并基于评分评估大模型的质量&效果,甚至基于此对大模型进行排名。
SuperCLUE
中文通用大模型多轮开放问题测评基准,旨在评估模型在多轮开放领域对话中的能力,包括 基础能力、专业能力和中文特性能力。
-
基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力
-
专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力
-
中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力
C-Eval
全面的中文基础模型评估套件,由上海交通大学,清华大学,爱丁堡大学共同完成,旨在评估和测试大模型在多个学科领域的知识和理解能力,包含13948个多项选择题,涵盖了52个不同的学科和四个难度级别,覆盖人文,社科,理工,其他专业四个大方向。