Opencompass背景
随着大模型的迅速发展,各种任务层出不穷,包括但不限于text-to-text, text-to-task, text-to-image,text-to-video以及text-to-3D,对于用户而言需要了解模型的特色能力和实际效果,对于开发者需要监控模型的能力变化,指导优化模型生产,对于管理机构需要减少大模型打来的社会风险,对于产业界需要找出最适合产业应用的模型,赋能真实场景。在这种背景下opencompass应孕而生。
Opencompass介绍
评测对象
本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。包括基座模型和对话模型,评测分为主观评测和客观评测
并且通过提示词工程,测试模型对于提示词的敏感性
能力框架
平台架构
opencompass的平台结构分为工具层,方法层,能力层,以及模型层
支持各种不同的模型
采用流水线的设计的方式进行模型测试,将评测请求切分为多个独立执行的任务,最大化利用计算资源
前沿探索