“百模大战”大模型哪家强？开源的全面评测来了！

最新推荐文章于 2025-05-18 21:06:41 发布

OpenMMLab

最新推荐文章于 2025-05-18 21:06:41 发布

阅读量1.7k

点赞数

文章标签：大模型大模型评测人工智能深度学习

本文链接：https://blog.csdn.net/qq_39967751/article/details/132755786

版权

当前大模型评测困难，现有评测方案存在不足。OpenCompass作为全面、公正、开源的大模型评测平台，具有多方面亮点，如全面的能力维度测评、丰富的模型支持、分布式高效评测等，还维护公开评测榜单，且正在建设面向多模态模型的评测能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近，一则推送在网上火了：《世界人工智能大会上的大模型都在这了，让你一次看个够》小编兴奋地点开文章，好家伙，整篇文章没有字，只有满眼的 “大模型”。

小编顶着昏花的老眼，手动数了一下，在 WAIC 大会上发布的大模型，至少有 58 个之多。🤦

而根据今年的《中国人工智能大模型地图研究报告》，国内现在已经发布了多达 79 个参数 10 亿规模以上的大模型。可谓是百花齐放，各有千秋。在各家对各自模型的宣传中，也都展示了自己模型强悍的一面，让不少围观者不禁为之振奋，直呼牛哇。

然而，市面上也存在着相当一部分疑惑的声音——作为用户，我们怎么能直观地知道哪个模型更强呢？不可否认的是，目前大模型评测还是一个比较困难的问题。尽管此前已经有了 MMLU、CEval 等比较权威的开源数据集榜单，可是它们只能反映模型在某个点上的能力，并无法准确地衡量出一个模型的综合能力。

另一方面，市面上也存在着一些对大模型进行评测的方案。可是，它们有的偏向学术研究，上手较难，让普通用户望而却步；有的方案并非完全公开，用户想要得知结果，只能手动提交评测申请，再望穿秋水地等待结果。这时，我们就需要一个全面、公正、开源的裁判，让大家伙儿随时在同一条起跑线上进行全能测试。小编在此隆重介绍我们今天的主角 —— OpenCompass！

GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (LLaMA, LLaMa2, ChatGLM2, ChatGPT, Claude, etc) over 50+ datasets.OpenCompass is an LLM evaluation platform, supporting a wide range of models (LLaMA, LLaMa2, ChatGLM2, ChatGPT, Claude, etc) over 50+ datasets. - GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (LLaMA, LLaMa2, ChatGLM2, ChatGPT, Claude, etc) over 50+ datasets.https://github.com/open-compass/opencompass

先简单介绍一下 OpenCompass 的几大亮点：

提供了约 30 万道题目，全面测试模型五大能力；
全面支持各类开源模型（InternLM, LLaMA, ChatGLM2, Baichuan 等）和 API 模型（ChatGPT, Claude 等）；
分布式高效评测，三小时完成千亿模型评测（资源充足的情况下☺️）
支持零样本、小样本及思维链评测，轻松激发模型最大性能；
代码和提示词全面开源，评测结果可自行复现；
支持对多模态模型开展全面的能力评测（包括 KOSMOS-2/MiniGPT-4 等最新多模态模型）。

另外，OpenCompass 也同步维护一份公开的评测榜单。用户可以选择提交自己的模型接口，评测完成后榜单上亦会实时更新最新结果。

接下来，就让我们详细了解一下 OpenCompass 的各项亮点吧！

全面的能力维度测评

MMLU、CEval、AGIEval，是此前各家大模型常测的几个大数据集。然而，它们都只反映了模型在考试方面的能力。而在 OpenAI 给出的报告中，也仅展示了 ChatGPT 在 7 个数据集上的能力。对于急切想要比较不同模型性能之间差异的业界来说，这还远远不够。

OpenCompass 则完成了一件狠活——一口气把各家常用的数据集统统支持了上去。同时，根据数据集的不同，把测评的方向汇总为知识、语言、理解、推理、学科等五大能力维度，合计提供了 50+ 个数据集约 30 万题的的模型评测方案。感受一下目前支持的所有数据集：

丰富的模型支持

作为目前最受欢迎的大模型托管平台，HuggingFace 存放了市面上几乎所有流行的开源模型。OpenCompass 则一步到位，允许用户直接评测上面的语言模型。同时，OpenCompass 也约定了一套非常简洁的模型接口，使得 API 模型和自定义模型的接入十分简单。OpenCompass 目前已经支持了 OpenAI 接口的调用（支持测试ChatGPT/GPT-4），后续还会持续支持 Claude, PaLM 等多种 API 模型，及 InternLM 的高性能推理，敬请大家期待！

分布式高效评测

大模型时代，时间成本已经变得不可忽视。即便推理阶段，一个数据集跑个十几小时也是常有的事情。如果不作任何优化，光是完成 50+ 个数据集的评测的时间，大概都足够小编去欢度一个黄金周了 🤦

所幸，OpenCompass 原生提供了分布式评测方案，支持了本机或集群上的计算任务并行分发，实现评测并行式的提速。此外，还通过分割大任务、合并小任务等策略，控制各计算任务的执行时间尽可能相等，实现计算负载均衡，更加充分地利用所有的计算资源。在我们内部的测试中，运算资源充足的情况下，OpenCompass 最短仅需要 3 个小时即完成千亿参数量级模型的完全评测，从而实现了模型训练-评测链路上的快速迭代，可谓是打工人的福音！ 🥰

支持任务自由切割和组合，高效并发评测

多样化评测范式

在模型评测时，评测策略的选择也对模型结果有至关重要的影响。例如，在测评模型时，有时需要给模型提供一些上下文样例（in-context examples），以便模型更好地按照格式回答问题。此外，在对逻辑推理能力要求较高的数据集上，思维链 (chain-of-thought) 式的评测策略能很好地激发模型的推理能力。对于一些经过微调的对话式模型，我们可能还需要把提示词以对话的模式输入模型，才能对齐对话模型的性能。

而 OpenCompass 除了最基础的零样本评测策略外，也支持小样本的评测策略，甚至还提供了 7 种不同的上下文样例的提取方案，助你花式构建提示词。同时，也即将支持思维链式的评测。

此外，OpenCompass 还针对对话模型的特性，首创了与模型绑定的提示词模板（meta template），允许用户自定义模型的对话模板，从而把提示词以最优的方式传入基座或对话模型。

支持多种评测提示词构建策略，最大程度激发模型性能

开源可复现

最重要的是，OpenCompass 作为一个公开的评测方案，项目的一切是全面开源的！OpenCompass 已经为大家提前整理了所有支持的数据集，用户可以根据文档一键下载。此外，经过精心设计的代码架构也允许大家快速添加新的模型和数据集，或者自定义数据划分策略，甚至接入新的集群管理后端。OpenCompass 还同步开源了各数据集多版本的提示词，供社区参考使用。通过多方位全链路的公开，确保评测结果可以被完整复现。同时，我们也非常欢迎社区各界共同参与贡献，持续优化提示词和测试逻辑，共同打造更强大、更全面的大模型评测基准。