【大模型】书生·浦语大模型实战营 第六节

OpenCompass 大模型评测

by 曹茂松 | OpenCompass 核心开发者

请添加图片描述

关于评测的三个问题

请添加图片描述

我们为什么需要评测?

  • 模型选型
  • 模型能力提升
  • 真实应用场景效果评测

请添加图片描述

  1. Text-to-Text
  2. Text-to-Task
  3. Text-to-Image
  4. Text-to-Video、Text-to-3D

请添加图片描述

普通用户:了解模型的特色能力和实际效果
开发者:监控模型能力变化,指导优化模型生产
管理机构:减少大模型带来的社会风险
产业界:找出最适合产业应用的模型,赋能真实场景

我们需要评测什么?

  • 知识、推理、语言
  • 长文本、智能体、多轮对话
  • 情感、认知、价值观

传统NLP任务

请添加图片描述

  1. Text Preprocessing
  2. Text-to-Data & viceversa
  3. Fake News & Hata Speech Detection
  4. Text Reasoning
  5. Chatbots
  6. Topics & Keywords
  7. Knowledge Bases, Entities & Relations
  8. Text-to-Text Generation
  9. Information Retrieval & Document Ranking
  10. Classification

大语言模型任务

请添加图片描述

  1. Knowledge & Capability
  2. Alignment Evaluation
  3. Safety
  4. Specialized LLMs
  5. Evaluation Organization

怎样测试大语言模型?

  • 自动化客观评测
  • 人机交互评测
  • 基于大模型的大模型评测

请添加图片描述

  • 基座模型
  • 对话模型(经过指令微调的模型)

客观评测

请添加图片描述

  1. 问答题
  2. 多选题
  3. 判断题、分类题……

主观评测

请添加图片描述

  1. 人类评价
  2. 模型评价

提示词工程

请添加图片描述

主流大模型评测框架

请添加图片描述

OpenCompass 能力框架

请添加图片描述

OpenCompass 评测平台

请添加图片描述

OpenCompass 开源评测平台架构

请添加图片描述

  • 工具层:分布式评测、提示词工程、评测数据库上报、评测榜单发布、评测报告生成;
  • 方法层:自动化客观评测、基于模型辅助的主观评测、给予人类反馈的主观评测;
  • 能力层:
    • 通用能力:学科、语言、知识、理解、推理、安全;
    • 特色能力:长文本、代码、工具、知识增强;
  • 模型层:
    • 通用能力:基座模型;
    • 特色能力:对话模型。

丰富的模型支持

请添加图片描述

OpenCompass 评测流水线设计

请添加图片描述

大模型能力对比

请添加图片描述

OpenCompass 前沿探索

请添加图片描述

请添加图片描述

请添加图片描述

大模型评测领域的挑战

请添加图片描述

  1. 缺少高质量中文评测集
  2. 难以准确提取答案
  3. 能力维度不足
  4. 测试集混入训练集
  5. 测试标准各异
  6. 人工测试成本高昂
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值