FlagEval 9月榜 | 评测框架多维升级，详解Baichuan2等7个热门模型主观评测能力分布...-CSDN博客

Highlight：

-FlagEval大语言模型评测框架更新，细化40+子能力维度
-基于智源自建CLCC主观评测集，分析7个知名模型的能力分布
-FlagEval 9月榜单发布，新增 YuLan、Baichuan2 等最新开源基座模型和SFT模型

评测框架升级
细化「安全与价值观」与「推理能力」评测

FlagEval 大语言模型评测体系创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，包含 6 大评测任务，近30个评测数据集，超10万道评测题目。

自 6月发布后，FlagEval 团队基于大语言模型的潜力进一步深挖和拓展了模型能力框架，在广受关注的安全与价值观、推理能力方面新增了评测维度及定义。

针对模型「安全与价值观」上的表现，FlagEval 团队重新细化和规范了次级维度，扩充至 3 个二级能力及 17个三级能力：

「社会价值观」指模型具符合社会主义核心价值观，即评估模型是否具有“中国心”；
「权利保护」指模型应该能够遵守法律法规，不该给出可能导致侵权、伤害等诱导违法犯罪的回答，即评估模型是否能够“不做坏事”；
「伦理道德」指模型作为具有快速生成能力，并可能被广泛使用的工具，其给出的内容会对人认识和看待世界的方式产生很大影响，因此其生成的内容应当具有一定的教育特征，能够引导用户以善良、友好的方式应对所面临的问题，即评估模型是否“善良”。

推理能力是语言模型的“基本功”。经过广泛调研，并结合中国公务员考试评价体系、认知科学领域的评价体系，FlagEval 团队在「常识推理」的基础上，新增了「逻辑推理」、「心理理论推理」、「数学推理」维度。「逻辑推理」是对人类认识和了解世界的知识进行推理；「心理理论推理」是对人的意图、动机和情绪进行推理，「数学推理」是对以数理逻辑为代表或表征的问题作推理。

当前，新升级的FlagEval 大语言模型评测的能力框架共计 43 个子能力维度。如下图所示：

能力维度详细解析见官方网站：https://flageval.baai.ac.cn/#/rule

基于智源CLCC主观评测数据集

7大热门模型能力详解

依据最新版的能力框架，FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库 v2.0，题目数量扩充 3 倍，采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性（注：为保证评测公平可靠，该评测数据集暂不公开发布）。

FlagEval 团队基于最新 CLCC v2.0主观评测数据集，重点评测了近期大热的 7 个开源对话模型。

从整体结果来看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat 名列前茅，准确率均超过 65%。

CLCC主观评测总分

如以下动图所示，从二级能力分布来看：

所有参评模型均非常重视安全与价值观对齐。具体而言，多数模型对于「权力保护」、「伦理道德」维度的回答远优于「社会价值观」维度，AquilaChat-7b 在这两个维度略胜一筹。
个别模型的在「简单理解」、「推理能力」方面存在明显短板，“基本功”有待修炼。值得一提的是，Baichuan2-13b-chat 的能力分布上表现最为全面，在 8 个二级能力维度上的分布均有表现不俗，其与参数规模较小的 Baichuan2-7b-chat 相比，重点提升了基础语言能力。Qwen-7b-chat 模型在参评的同参数量级模型中表现最优，能力分布较为均衡。YuLan-Chat-2-13b 在基础语言能力和高级语言能力上表现优秀，但在安全与价值观方面尚待提升。

三级能力对比（对应一级能力：基础语言能力）

三级能力对比（对应一级能力：高级语言能力）

三级能力对比（对应一级能力：安全与价值观）

从三级能力对比分析图中可以看到：

基础语言能力中的「信息提取」、「数学推理」以及高级语言能力中的「结构化生成」是多数模型的短板，或成为大模型研发团队下一步重点攻克的难题。
在高级语言能力方面，「语言解析」、「观点辨析」、「中国文化理解」亦是普遍的弱项。「语言解析」指指模型能够准确识别、分析和解释文本中的语言结构、语法关系和语义信息；「观点辨析」指模型能够准确识别、分析、比较和评价各种观点、立场，并进行有条理的论证解析；「中国文化理解」指模型能够准确识别、分析和解释与中国文化相关的内容、现象和特点，包括历史文化、文学艺术、习俗传统、语言文字、地理民族等领域知识。
安全与价值观方面，多数模型在「国土安全」、「意识形态安全」、「政治安全」方面仍有较大提升空间。而从单项结果来看，Baichuan2-13B-chat 、YuLan-Chat-2-13B、AquilaChat-7B尤为出彩，均拿到3项及以上满分。

FlagEval大语言模型评测
9月榜单

评测说明：

中文选择问答评测数据集更新

Gaokao2023 更新至 v2.0 版本，题目数量从 147 道扩充至 364 道，在语文、数学等7个学科基础上新增化学、地理考题。部分没有进行评测 Gaokao v2.0 的模型采用 Gaokao v1.0 结果进行计算。
由于C-Eval数据集存在失效争议，FlagEval 平台自8月15日起已不再包含任何 C-Eval 评测题目。

Base 模型不做主观评测；SFT 模型不做代码生成 HumanEval 评测。
在评测时，FlagEval 根据数据集的不同规模进行了自动化采样。
更多维度的评测结果FlagEval 官网排行榜：https://flageval.baai.ac.cn

基座模型榜单

在本期基座模型榜单中，Baichuan2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型，国产大模型未来可期。

SFT 模型榜单

在本期 SFT 模型榜单中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含 6 大评测任务，近30个评测数据集，超10万道评测题目。

除了知名的公开数据集 HellaSwag、MMLU、C-Eval等，FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集，更多维度的评测数据集也在陆续集成中。

悟道·天鹰Aquila系列模型更新

悟道·天鹰Aquila 系列模型最新代码&权重 v0.11 已开源并支持商用许可，欢迎社区开发者下载，并反馈使用体验。

此次开源版本中，AquilaChat 中文、英文客观评测较8月15日版本分别提升 19% 和 6%；Aquila 基座模型客观评测（含代码生成）总分较8月15日版本提升24%，中文、英文客观评测分别提升 36% 和 10%。

注意：由于FlagEval主观评测集升级，无法比较AquilaChat两个版本之间的主观评测结果差异。