【InternLM】OpenCompass大模型评测实战

科比和牛排

已于 2024-05-06 01:00:34 修改

阅读量804

点赞数 7

文章标签：笔记

于 2024-05-06 00:57:52 首次发布

本文链接：https://blog.csdn.net/weixin_42542228/article/details/138476240

版权

本文探讨了大模型评测的重要性，介绍了OpenCompass的开源特性与评测方法，包括客观评价（如困惑度评测和生成式评测）和主观评价（依赖人类主观感受）。同时，文章涵盖了多模态评测工具的应用，旨在全面评估大模型的性能和适用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.笔记

1.为什么进行大模型评测

通过评测来推动大模型的发展，通过各个维度的评测来检验大模型在不同方面的优缺点，在垂直领域来评测模型的适用性和专业性

2.大模型评测面临的挑战

3.什么是OpenCompass

OpenCompass中文名称司南，主要特点有：开源可复现、全面的能力维度、丰富的模型支持、分布式高效评测、多样化评测范式、灵活化拓展

4.opencompass的评测方法

客观评价

针对目标：具有标准答案的客观问题。可以通过使用定量指标比较模型的输出与标准答案的差异，并根据结果衡量模型的性能。

由于大语言模型输出自由度较高，在评测阶段，我们需要对其输入和输出作一定的规范和设计，尽可能减少噪声输出在评测阶段的影响，才能对模

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

科比和牛排

关注关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【第7节】OpenCompass 大模型评测实战

熊猫小妖的AI世界

04-24

1282

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现：提供公平、公开、可复现的大模型评测方案全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力丰富的模型支持：已支持 20+ HuggingFace 及 API 模型分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测。

OpenCompass 大模型评测实战

qq_18608609的博客

08-09

1093

此外，“司南”已支持超过20种HuggingFace和API模型，并具备分布式高效评测功能，只需一行命令即可实现任务分割和分布式评测，在数小时内完成对千亿参数模型的全量评测。对话模型在基座模型的基础上，通过指令微调或人类偏好对齐，具备更强的对话能力，如OpenAI的ChatGPT和上海人工智能实验室的书生·浦语。**模型层**关注基座模型和对话模型的评测。**方法层**采用客观评测和主观评测，前者适用于有确定答案的任务，后者评估用户对模型回复的满意度，结合模型辅助和人类反馈进行评估。

参与评论您还未登录，请先登录后发表或查看评论

第七课 OpenCompass 大模型评测实战笔记及作业

wudiyjnewway的博客

06-14

1066

OpenCompass 大模型评测实战笔记及作业

7-OpenCompass 大模型评测实战

wengad的博客

06-11

882

InternLm实战营 Opencompass大模型测评实战

TianxiaZhu824的博客

04-22

1644

七、OpenCompass 大模型评测实战

厚积而薄发

04-28

1100

OpenCompass大模型评测实战第七课

weixin_62638966的博客

06-16

1120

1、OpenCompass 亮点开源与复现：提供公平、公开、可复现的评测方案。全面的能力维度：五大维度设计，提供70+个数据集约40万题的模型评测方案。模型支持：已支持20+ HuggingFace 及 API 模型。分布式高效评测：一行命令实现任务分割和分布式评测，快速完成模型全量评测。多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板。灵活化拓展：轻松增加新模型、数据集或自定义高级任务分割策略。2、CompassKit：大模型评测全栈工具链。

OpenCompass 大模型评测实战——作业

YYYYbhjbhkv_的博客

04-24

935

建议这边直接用这个命令，我使用的时候是运行成功了，但后面依然出现了对应包没有的问题。这边就出现了和这两个包没有的情况，那就 pip install 装上。实在受不了了，运行了几次，每次都缺包，果断。再次运行，没有出现缺包的情况，不过也是出现了和教程上说过的问题。先按照教程的做法设置。但运行发现还是报同样的错误，那就换第二种方法。这次运行以后没有再出现的问题了，不过出现了新的问题。出现这个问题是因为缺少这个包，再，然后再次运行。这次终于成功，安心等待结果。想截出来完整的图片，

OpenCompass 大模型评测实战（作业）

2301_80703617的博客

04-25

423

构造新的数据集需要修改至少三个文件，一是opencompass/configs/datasets下面，新建相应的脚本；二是opencompass/opencompass/datasets去构建一个新类，并实现一个load函数，负责把新的数据集以csv/json等格式load进来，并返回DatasetDict形式，传出之后，会在刚才configs里面新建的脚本中拼起来，最终进行append；

七、OpenCompass 大模型测评实战

2301_80720303的博客

06-23

1632

【InternLM 实战营第二期笔记07】OpenCompass 大模型评测实战

qq_74261455的博客

04-22

1388

OpenCompass是上海人工智能实验室开源的大模型评测平台，该平台具有一系列显著的特点和功能。首先，它提供了开源可复现的评测方案，保证了评测的公平、公开和可复现性。这为研究者提供了一个稳定可靠的基准，使得不同模型之间的比较更加准确和有意义。其次，OpenCompass在评测维度上非常全面，涵盖了学科、语言、知识、理解、推理等五大维度。

【InternLM 实战营第二期笔记+作业07】OpenCompass 大模型评测实战

zzzibo的博客

06-02

2085

10.学习笔记-MyBatisPlus(P105-P110)

zsysingapore的博客

04-29

172

比如有两张数据表，一张是员工表，一张是员工业绩表，通过员工的id关联，如果该员工离职，首先员工表的数据要被删除，对应的员工业绩表则成了垃圾数据，也要删除。通过Mp的api删除，是看不到被删除的数据，如果此时还想看到全数据（包括deleted=0以及deleted=1，就去Dao层写SQL语句。如果函数不支持Mp，恢复到最早的Mybatis，在数据接口层Dao中，继续用@select，下面添加sql语句。场景：八个人去抢最后的一个商品，会出现-1，-2，-3…抽象类不能直接用，我们使用的是抽象类的实现类。

Vue2+Vue3学习笔记

最新发布

tiantiantbtb的博客

04-29

564

v2v3https://v3.cn.vuejs.org/ 会重定向到Vue.js - 渐进式 JavaScript 框架 | Vue.jsVue.js - 渐进式的 JavaScript 框架从v2过渡到v3在F盘创建v2+v3学习笔记并用VSCODE打开。

C++笔记-模板进阶和继承(上)

2301_80236968的博客

04-27

873

先讲第一条：关于父类的private成员，不管你是什么继承方式都是子类和类外无法访问的，这就像每个人都有自己的隐私，你的父母也有自己的隐私，隐私当然是不能被其他人看的。第三条的意思是取继承方式和父类成员权限的较小值，这里权限只是一种说法，后面就是权限的大小关系，取其中的较小值后父类的成员或者函数就变成子类中的相应权限的成员和函数。在上面的例子中，父类和子类中都有num1成员变量，但我们通过结果可知，输出的并不是父类中的num1，而是子类中的num1，此时就是子类把父类的同名成员给隐藏了。

RT-Thread学习笔记（四）

2301_76423513的博客

04-26

587

在一开始，线程1的入口函数先用一个延时阻塞，这时线程1被挂起，线程2被调度，但是此时的信号量2值为0，线程2获取不到信号量，因此线程2被挂起，等到线程1的延时结束，又回到线程1，此时线程1获取信号量1成功，执行相应的操作，然后释放信号量2，信号量1的值从1变为0，信号量2的值从0变为1，线程1执行完，又轮到线程2执行，此时信号量2值为1，因此线程2能够获取信号量2，对应的操作能够执行，线程2又释放信号量1，此时信号量1的值又变为1，信号量2的值又变为0，依次循环，就实现了信号的同步操作。

BiliNote：开源的AI视频笔记生成工具，让知识提取与分享更高效——跨平台自动生成结构化笔记，实现从视频到Markdown的智能转化

这里汇聚了前沿的技术分享与实用的开发技巧，带你探索从创意到企业的技术创业之路。

04-25

377

BiliNote通过开源技术与智能算法的结合，让视频内容的价值释放变得触手可及。无论是学生、研究者还是内容创作者，都能借助这一工具高效地将动态视频转化为结构化知识。随着开源生态的扩展，我们期待看到更多创新功能的涌现，真正实现“让知识流动更自由”。，将视频内容转化为结构清晰的Markdown笔记，支持截图插入、原片跳转链接，并兼容本地语音转写模型与多种大语言模型（LLM），为学习者与创作者提供了。随着知识视频化趋势的加速，B站、YouTube等平台成为学习与信息获取的重要渠道，但。

lmms-eval--微调实战笔记

qq_62111160的博客

04-28

188

-大模型调用平台，方便新手上手大模型微调lmms-eval的更多用法,没有mathverse。