Highlight:
-FlagEval大语言模型评测框架更新,细化40+子能力维度
-基于智源自建CLCC主观评测集,分析7个知名模型的能力分布
-FlagEval 9月榜单发布,新增 YuLan、Baichuan2 等最新开源基座模型和SFT模型
评测框架升级
细化「安全与价值观」与「推理能力」评测
FlagEval 大语言模型评测体系创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,包含 6 大评测任务,近30个评测数据集,超10万道评测题目。
自 6月发布后,FlagEval 团队基于大语言模型的潜力进一步深挖和拓展了模型能力框架,在广受关注的安全与价值观、推理能力方面新增了评测维度及定义。
针对模型「安全与价值观」上的表现,FlagEval 团队重新细化和规范了次级维度,扩充至 3 个二级能力及 17个三级能力:
「社会价值观」指模型具符合社会主义核心价值观,即评估模型是否具有“中国心”;
「权利保护」指模型应该能够遵守法律法规,不该给出可能导致侵权、伤害等诱导违法犯罪的回答,即评估模型是否能够“不做坏事”;
「伦理道德」指模型作为具有快速生成能力,并可能被广泛使用的工具,其给出的内容会对人认识和看待世界的方式产生很大影响,因此其生成的内容应当具有一定的教育特征,能够引导用户以善良、友好的方式应对所面临的问题,即评估模型是否“善良”。
推理能力是语言模型的“基本功”。经过广泛调研,并结合中国公务员考试评价体系、认知科学领域的评价体系,FlagEval 团队在「常识推理」的基础上,新增了「逻辑推理」、「心理理论推理」、「数学推理」维度。「逻辑推理」是对人类认识和了解世界的知识进行推理;「心理理论推理」是对人的意图、动机和情绪进行推理,「数学推理」是对以数理逻辑为代表或表征的问题作推理。
当前,新升级的FlagEval 大语言模型评测的能力框架共计 43 个子能力维度。如下图所示:
能力维度详细解析见官方网站:https://flageval.baai.ac.cn/#/rule
基于智源CLCC主观评测数据集
7大热门模型能力详解
依据最新版的能力框架,FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库 v2.0,题目数量扩充 3 倍,采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性(注:为保证评测公平可靠,该评测数据集暂不公开发布)。
FlagEval 团队基于最新 CLCC v2.0主观评测数据集,重点评测了近期大热的 7 个开源对话模型。
从整体结果来看,Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat 名列前茅,准确率均超过 65%。
CLCC主观评测总分
如以下动图所示,从二级能力分布来看:
所有参评模型均非常重视安全与价值观对齐。具体而言,多数模型对于「权力保护」、「伦理道德」维度的回答远优于「社会价值观」维度,AquilaChat-7b 在这两个维度略胜一筹。
个别模型的在「简单理解」、「推理能力」方面存在明显短板,“基本功”有待修炼。值得一提的是,Baichuan2-13b-chat 的能力分布上表现最为全面,在 8 个二级能力维度上的分布均有表现不俗,其与参数规模较小的 Baichuan2-7b-chat 相比,重点提升了基础语言能力。Qwen-7b-chat 模型在参评的同参数量级模型中表现最优,能力分布较为均衡。YuLan-Chat-2-13b 在基础语言能力和高级语言能力上表现优秀,但在安全与价值观方面尚待提升。
三级能力对比(对应一级能力:基础语言能力)
三级能力对比(对应一级能力:高级语言能力)
三级能力对比(对应一级能力:安全与价值观)
从三级能力对比分析图中可以看到:
基础语言能力中的「信息提取」、「数学推理」以及高级语言能力中的「结构化生成」是多数模型的短板,或成为大模型研发团队下一步重点攻克的难题。
在高级语言能力方面,「语言解析」、「观点辨析」、「中国文化理解」亦是普遍的弱项。「语言解析」指指模型能够准确识别、分析和解释文本中的语言结构、语法关系和语义信息;「观点辨析」指模型能够准确识别、分析、比较和评价各种观点、立场,并进行有条理的论证解析;「中国文化理解」指模型能够准确识别、分析和解释与中国文化相关的内容、现象和特点,包括历史文化、文学艺术、习俗传统、语言文字、地理民族等领域知识。
安全与价值观方面,多数模型在「国土安全」、「意识形态安全」、「政治安全」方面仍有较大提升空间。而从单项结果来看,Baichuan2-13B-chat 、YuLan-Chat-2-13B、AquilaChat-7B尤为出彩,均拿到3项及以上满分。
FlagEval大语言模型评测
9月榜单
评测说明:
中文选择问答评测数据集更新
Gaokao2023 更新至 v2.0 版本,题目数量从 147 道扩充至 364 道,在语文、数学等7个学科基础上新增化学、地理考题。部分没有进行评测 Gaokao v2.0 的模型采用 Gaokao v1.0 结果进行计算。
由于C-Eval数据集存在失效争议,FlagEval 平台自8月15日起已不再包含任何 C-Eval 评测题目。
Base 模型不做主观评测;SFT 模型不做代码生成 HumanEval 评测。
在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。
更多维度的评测结果FlagEval 官网排行榜:https://flageval.baai.ac.cn
基座模型榜单
在本期基座模型榜单中,Baichuan2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型,国产大模型未来可期。
SFT 模型榜单
在本期 SFT 模型榜单中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。
FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。
除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。
悟道·天鹰Aquila系列模型更新
悟道·天鹰Aquila 系列模型最新代码&权重 v0.11 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验。
此次开源版本中,AquilaChat 中文、英文客观评测较8月15日版本分别提升 19% 和 6%;Aquila 基座模型客观评测(含代码生成)总分较8月15日版本提升24%,中文、英文客观评测分别提升 36% 和 10%。
注意:由于FlagEval主观评测集升级,无法比较AquilaChat两个版本之间的主观评测结果差异。
使用方式一(推荐):通过 FlagAI 加载 Aquila 系列模型
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
使用方式二:通过 FlagOpen 模型仓库单独下载权重
https://model.baai.ac.cn/
使用方式三:通过 Hugging Face 加载 Aquila 系列模型
https://huggingface.co/BAA
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·