强力推荐一个超级好用的大模型测评工具

大白爱爬山

已于 2024-04-26 10:28:18 修改

阅读量5.4k

点赞数 5

文章标签：人工智能 AIGC

于 2024-04-26 10:21:43 首次发布

本文链接：https://blog.csdn.net/LClansefengbao/article/details/138210911

版权

本文介绍了在AI时代背景下，如何通过opencompass（司南）这款开源工具来评估和微调大模型的效果。opencompass提供了全面的能力维度测试，支持多种大模型和API接口，以及分布式评测，便于用户进行模型性能评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这个千模大战的AI时代，国内很多大厂都在做自己的基础大模型，比如Qwen、Baichuan、文心一言、星火、盘古等等；对于小玩家或者个人来说使用大模型的最佳方式就是基于这些基础大模型来做微调。

但是对于微调后的大模型效果怎样呢？有没有好的工具去衡量、去评价判断呢？在这里给大家强力推荐一个非常好用的工具，那就是opencompass，中文名称司南，最近在项目中也刚好在使用它，非常方便好用，而且它是一个开源的大模型测试工具，支持很多常用的大模型，测试数据集也很丰富，可以从语言、知识、推理、考试、理解、长文本、安全、代码等多个维度测试大模型的能力。

官网网址：https://opencompass.org.cn/home

github网址: https://github.com/open-compass/opencompass

opencompass是一款面向大模型评测的一站式平台，特点如下：

开源：大家都可以方便地使用，而且可以根据自身需要做一些定制开发。
全面的能力维度：五大维度设计，提供 70+ 个数据集约 40万题的模型评测方案，全面评估模型能力。
丰富的模型支持：已支持 20+ HuggingFace ，同时还支持模型的API方式。
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测。
灵活扩展：可以新增自定义模型和数据集

数据集支

大模型及API支持

除了支持开源大模型本地支持测试，同时还支持已经部署好的大模型的API接口测试。

开源大模型	API模型
InternLM	OpenAI
LLaMA	Gemini
LLaMA3	Claude
Vicuna	ZhipuAI(ChatGLM)
Alpaca	Baichuan
Baichuan	ByteDance(YunQue)
WizardLM	Huawei(PanGu)
ChatGLM2	360
ChatGLM3	Baidu(ERNIEBot)
TigerBot	MiniMax(ABAB-Chat)
Qwen	SenseTime(nova)
Qwen1.5	Xunfei(Spark)
BlueLM
Gemma