【大模型】书生·浦语大模型实战营第六节

最新推荐文章于 2024-10-04 22:36:54 发布

weixin_43193528

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量1.9k

点赞数 35

文章标签：人工智能 llama

本文链接：https://blog.csdn.net/weixin_43193528/article/details/135831368

版权

OpenCompass 大模型评测

OpenCompass 大模型评测

OpenCompass 大模型评测

by 曹茂松 | OpenCompass 核心开发者

请添加图片描述

关于评测的三个问题

请添加图片描述

我们为什么需要评测？

模型选型
模型能力提升
真实应用场景效果评测

请添加图片描述

Text-to-Text
Text-to-Task
Text-to-Image
Text-to-Video、Text-to-3D

请添加图片描述

普通用户：了解模型的特色能力和实际效果
开发者：监控模型能力变化，指导优化模型生产
管理机构：减少大模型带来的社会风险
产业界：找出最适合产业应用的模型，赋能真实场景

我们需要评测什么？

知识、推理、语言
长文本、智能体、多轮对话
情感、认知、价值观

传统NLP任务

请添加图片描述

Text Preprocessing
Text-to-Data & viceversa
Fake News & Hata Speech Detection
Text Reasoning
Chatbots
Topics & Keywords
Knowledge Bases, Entities & Relations
Text-to-Text Generation
Information Retrieval & Document Ranking
Classification

大语言模型任务

请添加图片描述

Knowledge & Capability
Alignment Evaluation
Safety
Specialized LLMs
Evaluation Organization

怎样测试大语言模型？

自动化客观评测
人机交互评测
基于大模型的大模型评测

请添加图片描述

基座模型
对话模型（经过指令微调的模型）

客观评测

请添加图片描述

问答题
多选题
判断题、分类题……

主观评测

请添加图片描述

人类评价
模型评价

提示词工程

请添加图片描述

主流大模型评测框架

请添加图片描述

OpenCompass 能力框架

请添加图片描述

OpenCompass 评测平台

请添加图片描述

OpenCompass 开源评测平台架构

请添加图片描述

工具层：分布式评测、提示词工程、评测数据库上报、评测榜单发布、评测报告生成；
方法层：自动化客观评测、基于模型辅助的主观评测、给予人类反馈的主观评测；
能力层：
- 通用能力：学科、语言、知识、理解、推理、安全；
- 特色能力：长文本、代码、工具、知识增强；
模型层：
- 通用能力：基座模型；
- 特色能力：对话模型。

丰富的模型支持

请添加图片描述

OpenCompass 评测流水线设计

请添加图片描述

大模型能力对比

请添加图片描述

OpenCompass 前沿探索

请添加图片描述

大模型评测领域的挑战

请添加图片描述

缺少高质量中文评测集
难以准确提取答案
能力维度不足
测试集混入训练集
测试标准各异
人工测试成本高昂

weixin_43193528

关注

35
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【大模型】书生·浦语大模型实战营 第六节

OpenCompass 大模型评测

OpenCompass 大模型评测

关于评测的三个问题

我们为什么需要评测？

我们需要评测什么？

传统NLP任务

大语言模型任务

怎样测试大语言模型？

客观评测

主观评测

提示词工程

主流大模型评测框架

OpenCompass 能力框架

OpenCompass 评测平台

OpenCompass 开源评测平台架构

丰富的模型支持

OpenCompass 评测流水线设计

大模型能力对比

OpenCompass 前沿探索

大模型评测领域的挑战

【大模型】书生·浦语大模型实战营第六节