FlagEval 7月榜单：新增 LLaMA、Aquila、GLM等基座模型评测结果-CSDN博客

本文链接：https://blog.csdn.net/eagleofstar/article/details/132186172

Highlight:

大模型概念易混淆，FlagEval 评测思路解读
7 月基座模型 & SFT 模型榜单出炉

FlagEval 天秤大模型评测平台于6月9日上线以来，发布一个月内已收到 200+ 模型评测申请，并更新了首期 SFT 模型排行榜和大模型2023高考排行榜。近日，FlagEval 大模型评测新增了多个开源基座模型和有监督微调模型评测。

为什么评测需要区分“基座模型”、“有监督微调模型”？

当前大众对于大模型的基本类型和相关概念多有混淆，在评测模型时亦不够严谨。严格来说，大语言模型根据训练阶段可以分为基座模型（Base Model）、有监督微调模型（SFT Model），简略示意图如下所示：

1. 基座模型（Base Model）是经过海量数据预训练（Pre-train）得到的，它具备一定的通用能力，相当于一个“潜力未知”的庞大的知识库，具备续写能力（持续预测下一个单词），但人类很难直接与其进行对话交互。

2.指令微调数据包含了各种与人类行为及情感相关的指令和任务的数据集，例如如何煮咖啡、如何打开电视机、如何安慰某人等等，通过训练模型来理解这些指令和任务，可以使模型更好地生成符合人类任务要求的内容，回答与人类行为及情感相关的问题。进一步地，我们还可以通过RLHF（基于人类反馈的强化学习）训练，将人类的反馈作为奖励信号让模型更好地理解和完成人类发出的指令，人类反馈信号包括人类对答案进行排序和修改，针对上轮对话发出下一轮指令等。

3.经过指令微调数据训练的有监督微调模型（SFT Model）才具备了与人类流畅对话的能力，如 ChatGPT、Alpaca、AquilaChat、ChatGLM 等均属于此类型。

普遍的观点认为，基座模型在很大程度上决定了微调模型的能力。有些人甚至认为，微调模型所具备的知识在基础模型的预训练阶段已经全部习得，微调模型的能力实际上是“被激发后的”基座模型的能力。

为了更好评测两类模型的性能，当前 FlagEval 大语言模型评测体系设计了不同的评测方法：

1. 针对基座模型的评测：

a. 方式一：提示学习评测。主要考察基础模型在提示学习下的开放生成能力，可以反映模型 in-context学习的能力和指令跟随的能力。

b. 方式二：适配评测。主要考察基础模型在固定选项下的选择能力，可以探查到模型知识储备情况。

2.针对有监督微调模型的评测：

a. 首先复用针对基座模型的客观评测，考察微调过程是否对基座模型造成了某些能力的提升或下降。

b. 然后引入主观评测。FlagEval 团队围绕模型“认知能力”框架，自建了中文语言及认知评测集 Chinese Linguistics & Cognition Challenge (CLCC）。

Flageval大模型评测，7 月排行榜上新！

FlagEval 大语言模型评测体系当前集成了 5 大评测任务、 20余个评测数据集，累计 8.8 万+题目，正在持续更新主流开源模型的评测结果，更多评测数据详见官网 http://flageval.baai.ac.cn。

评测方式说明：

本期榜单仅提供“提示学习评测”结果。在评测时，FlagEval 根据数据集的不同规模进行了自动化采样。
基座模型仅具备续写能力（即根据输入文本持续预测下一个单词），而不具备对话能力。因此，本期评测未对基座模型进行主观评测。
FlagEval 官网展示的排行榜支持“SFT模型”或“基座模型”筛选，请注意区分两类模型的评测结果。

1. 基座模型 Base model

基座模型是奠定下游微调模型性能的重要基础。当前众多对话模型是各家企业机构使用自身需要的SFT指令微调数据，在开源或闭源的基础模型上进行微调训练所得；许多代码模型也是在语言基座模型上进行代码数据持续训练所得。所以，对各个开源的语言基座模型进行评测对比，对大模型产业发展有更重要的意义。

在基座模型评测中，LLaMA-30B、GLM-130B 分别摘得第一、第二名。悟道·天鹰Aquila-7B 接近 LLaMA-7B 水平，但仍有微小的差距。原因在于Aquila 作为中英双语模型在预训练阶段需要同时学习大量的双语知识（中英训练数据比例约为 1 : 2），比单一语言的学习难度更大，后续 Aquila 还会持续迭代更好的训练数据，持续开源性能更好的版本。

2. 有监督微调模型 SFT model

在微调模型榜单中，悟道·天鹰AquilaChat-7B、Alpaca-7B、Ziya-LLaMA-13B 位列前三。

有趣的发现

1. 部分基座模型的 in-context 能力还有待提高。

譬如在 BoolQ 数据集评测中，模型预期应该生成 “Yes” 或者“No”，LLama-7B 的生成结果为“Yes”，被判为正确；而有些模型的生成结果出现偏差（如“Yes Passage: The”），未按照指令的要求来完成任务，被判为错误，说明其指令跟随的能力还有待提高。

2. 英语基座模型无法生成中文长序列回答，但是部分英文SFT模型具备一定的中文理解能力。

如下图所示，输入“你是谁？请介绍一下你自己”，观察各个模型的输出可以看到，英语基座模型 LLaMA、英语微调模型 Alpaca 基本只能输出英语长文本回答；支持中文的 SFT 模型 AquilaChat、ChatGLM2-6B 等皆能输出流畅可读的中文长序列回答。

英语SFT模型 Vicuna、StableLM-tuned 在中文选择问答任务中表现优秀，Vicuna 甚至在“高考 2023 评测”中接近了 ChatGLM2-6B 的水平，排名第三，说明该模型具备一定的中文理解能力，能答对客观选择题（仅输出“ A/B/C/D ”选项，非长文本序列）。

Vicuna 在非语文科目上得分较高，而 AquilaChat 作为中英双语模型，在语文考试中拔得头筹。

总结

FlagEval 大语言模型评测体系创新构建了“能力-任务-指标”三维框架，细粒度刻画基础模型的认知能力边界，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。未来将每月定期发布权威评测榜单，覆盖更多开源大模型评测，公众可登录官网查看更多评测结果：http://flageval.baai.ac.cn。

悟道·天鹰Aquila 系列模型代码&权重已开源并支持商用许可：

使用方式一（推荐）：通过 FlagAI 加载 Aquila 系列模型 https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
使用方式二：通过 FlagOpen 模型仓库单独下载权重 https://model.baai.ac.cn/
使用方式三：通过 Hugging Face 加载 Aquila 系列模型 https://huggingface.co/BAAI