OpenCompass 大模型评测
OpenCompass 大模型评测
by 曹茂松 | OpenCompass 核心开发者
关于评测的三个问题
我们为什么需要评测?
- 模型选型
- 模型能力提升
- 真实应用场景效果评测
- Text-to-Text
- Text-to-Task
- Text-to-Image
- Text-to-Video、Text-to-3D
普通用户:了解模型的特色能力和实际效果
开发者:监控模型能力变化,指导优化模型生产
管理机构:减少大模型带来的社会风险
产业界:找出最适合产业应用的模型,赋能真实场景
我们需要评测什么?
- 知识、推理、语言
- 长文本、智能体、多轮对话
- 情感、认知、价值观
传统NLP任务
- Text Preprocessing
- Text-to-Data & viceversa
- Fake News & Hata Speech Detection
- Text Reasoning
- Chatbots
- Topics & Keywords
- Knowledge Bases, Entities & Relations
- Text-to-Text Generation
- Information Retrieval & Document Ranking
- Classification
大语言模型任务
- Knowledge & Capability
- Alignment Evaluation
- Safety
- Specialized LLMs
- Evaluation Organization
怎样测试大语言模型?
- 自动化客观评测
- 人机交互评测
- 基于大模型的大模型评测
- 基座模型
- 对话模型(经过指令微调的模型)
客观评测
- 问答题
- 多选题
- 判断题、分类题……
主观评测
- 人类评价
- 模型评价
提示词工程
主流大模型评测框架
OpenCompass 能力框架
OpenCompass 评测平台
OpenCompass 开源评测平台架构
- 工具层:分布式评测、提示词工程、评测数据库上报、评测榜单发布、评测报告生成;
- 方法层:自动化客观评测、基于模型辅助的主观评测、给予人类反馈的主观评测;
- 能力层:
- 通用能力:学科、语言、知识、理解、推理、安全;
- 特色能力:长文本、代码、工具、知识增强;
- 模型层:
- 通用能力:基座模型;
- 特色能力:对话模型。
丰富的模型支持
OpenCompass 评测流水线设计
大模型能力对比
OpenCompass 前沿探索
大模型评测领域的挑战
- 缺少高质量中文评测集
- 难以准确提取答案
- 能力维度不足
- 测试集混入训练集
- 测试标准各异
- 人工测试成本高昂