OpenCompass 大模型评测

最新推荐文章于 2024-07-05 16:44:12 发布

Zhangdd1208

最新推荐文章于 2024-07-05 16:44:12 发布

阅读量418

点赞数 8

分类专栏： MMLab实战训练营文章标签：人工智能 python 深度学习

本文链接：https://blog.csdn.net/qq_42866033/article/details/135757857

版权

20 篇文章 1 订阅

订阅专栏

关于测评的三个问题

OpenCompass提供设计一套全面、高效、可拓展的大模型评测方案，对模型能力、性能、安全性等进行全方位的评估。OpenCompass提供分布式自动化的评测系统，支持对(语言/多模态)大模型开展全面系统的能力评估。
在这里插入图片描述

模型层：大模型评测所涉及的主要模型种类，OpenCompass以基座模型和对话模型作为重点评测对象。
- 基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型往往具有强大的文字续写能力。
- 对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型，能理解人类指令，具有较强的对话能力。
能力层：OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面，从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面，从长文本、代码、工具、知识增强等维度进行评测。
方法层：OpenCompass采用客观评测与主观评测两种评测方式。客观评测能便捷地评估模型在具有确定答案（如选择，填空，封闭式问答等）的任务上的能力，主观评测能评估用户对模型回复的真实满意度，OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。
工具层：OpenCompass提供丰富的功能支持自动化地开展大语言模型的高效评测。包括分布式评测技术，提示词工程，对接评测数据库，评测榜单发布，评测报告生成等诸多功能。

在 OpenCompass 中评估一个模型通常包括配置、推理、评估、可视化几个阶段。
在这里插入图片描述

关注