大模型听课笔记——书生·浦语（6）

最新推荐文章于 2024-10-03 10:53:42 发布

亲爱的阿基米德^

最新推荐文章于 2024-10-03 10:53:42 发布

阅读量427

点赞数 8

分类专栏：书生浦语学习笔记文章标签：笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rabbit9798/article/details/135773319

版权

书生浦语学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

OpenCompass大模型测评

书生浦语系列的最后一节课程笔记。

评测的需求产生：不同种类的模型急剧增多，对模型的性能和能力边界探索的边界.

我们为什么需要模型评测？

在这里插入图片描述

我们需要评测什么？

在这里插入图片描述

如何测评大语言模型？

基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。

对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。

客观评测（正则匹配判断）
主观评测（人工消耗太大的话考虑采用GPT 4）
基于提示词工程的评测

主流大模型评测框架

在这里插入图片描述
为了准确和公正地评估大模型的能力，国内外机构在大模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM，从准确性，安全性，鲁棒性和公平性等维度开展模型评测。纽约大学联合谷歌和Meta提出了SuperGLUE评测集，从推理能力，常识理解，问答能力等方面入手，构建了包括8个子任务的大语言模型评测数据集。加州大学伯克利分校提出了MMLU测试集，构建了涵盖高中和大学的多项考试，来评估模型的知识能力和推理能力。谷歌也提出了包含数理科学，编程代码，阅读理解，逻辑推理等子任务的评测集Big-Bench，涵盖200多个子任务，对模型能力进行系统化的评估。在中文评测方面，国内的学术机构也提出了如CLUE,CUGE等评测数据集，从文本分类，阅读理解，逻辑推理等方面评测语言模型的中文能力。

OpenCompass 能力框架

随着大模型的蓬勃发展，如何全面系统地评估大模型的各项能力成为了亟待解决的问题。由于大语言模型和多模态模型的能力强大，应用场景广泛，目前学术界和工业界的评测方案往往只关注模型的部分能力维度，缺少系统化的能力维度框架与评测方案。OpenCompass提供设计一套全面、高效、可拓展的大模型评测方案，对模型能力、性能、安全性等进行全方位的评估。OpenCompass提供分布式自动化的评测系统，支持对(语言/多模态)大模型开展全面系统的能力评估。
在这里插入图片描述

OpenCompass 开源评测平台架构

在这里插入图片描述

OpenCompass 评测流水线设计

在这里插入图片描述

大模型评测领域的挑战

在这里插入图片描述

亲爱的阿基米德^

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

亲爱的阿基米德^ CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

142万+: 周排名

24万+: 总排名

8513: 访问

: 等级

310: 积分

107: 粉丝

168: 获赞

17: 评论

129: 收藏

私信

关注

热门文章

分类专栏

书生浦语学习笔记 11篇

最新评论

搭建VirtualHome环境
XTU-Rookie: 黑屏解决不了
搭建VirtualHome环境
XTU-Rookie: 救命，黑屏怎么解决呀
Ubuntu下载Matterport3DSimulator时出现nvidia-docker：未找到命令
weixin_41399589: docker run -it -v $MATTERPORT_DATA_DIR:/root/mount/Matterport3DSimulator/data/v1/scans -v `pwd`:/root/mount/Matterport3DSimulator mattersim:9.2-devel-ubuntu18.04 使用这行命令建立容器能访问GPU么？
搭建VirtualHome环境
weixin_44829007: 作者你好，官方文档最后一步给出的这个指令python3 scripts/run_eval.py --progprompt-path $(pwd) --expt-name {expt_name} --openai-api-key {key} --unity-filename {v2.3_virtualhome_sim} --display {0}，第一个是项目的路径，第二个不太清楚设置成什么，第三个是个人申请的key，第四个也不太清楚，最后一个参数是默认设置成0吗？执行之后，提前打开的unity软件黑屏没有反应，请问怎么处理
搭建VirtualHome环境
weixin_44829007: 我也一样

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。