OpenCompass司南大模型评测体系-书生·浦语大模型第二期实战营第七课笔记&作业

最新推荐文章于 2024-07-25 16:41:17 发布

will_liam_2024

最新推荐文章于 2024-07-25 16:41:17 发布

阅读量935

点赞数 10

分类专栏：书生浦语大模型实战营笔记文章标签：笔记语言模型功能测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76739570/article/details/138010709

版权

书生浦语大模型实战营笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、笔记

课程内容

如何通过能力评测促进模型发展？

面向未来，拓展能力维度：大模型学习人的能力，目前的上限是人的想象力上限，设计数学、推理、代码、智能体等各种维度来评测模型性能。
聚焦垂直行业：大模型在通用领域已经能达到不错的效果，但是在医疗金融法律等需要高精的专业领域，需要更加规范的内容来评估模型的行业适用性。
中文基准：目前全球社区大模型生态以英文为主，通过针对中文场景设计相关评测基准，来促进中文社区的大模型发展。
能力评测反哺能力迭代：通过评测，发现模型不足，针对性提升。

大模型评测中的挑战

全面性：评测需要综合考量模型在不同维度上的表现，包括语言理解、知识应用、逻辑推理、创造力等。同时，还应考虑模型在特定垂直行业如医疗、金融、法律等领域的专业能力，以及其对新情境的适应性和学习能力。
评测成本：大模型的评测往往涉及大规模的计算资源和数据集，这导致评测成本显著增加。另外，为了获得全面的评测结果，除了客观的打分题目，还有基于人工打分的主观评测，进一步增加了时间和经济成本。
数据污染：数据污染指的是评测数据被加入到模型的训练数据中，需要可靠的数据污染检测技术和动态调节的评测基准，来获得真实客观的评估结果。
鲁棒性：评测大模型时，需要检验其在面对变化的提示词输入的鲁棒性，设计针对鲁棒性的评测数据，例如挖掘大模型的bias（针对顺序的bias、针对长短文本的bias等），在多次采样下评估模型的性能。

OpenCompass2.0司南大模型评测体系

开源历程

-广泛应用
Meta官方推荐唯一国产的体系
100+评测集、50万题目
多个大模型企业和科研机构使用

评测对象与运行方法

模型类型
- 基座模型：海量数据无监督训练（Base）
- 对话模型：指令数据有监督微调（SFT）、人类偏好对齐（RLHF）
评测方法
- 对于公开权重的开源模型，使用GPU/推理加速卡进行本地推理
- API模型使用发送网络请求方式获得回复。

评测类型

客观评测与主观评测
- 客观问答题、选择题：通过标注或者预处理方式，得出有特定答案的数据集，可以进行自动评测
- 开放式主观问答：没有特定答案，但是可以通过不同模型对答案的比较、打分的方式，获得评估结果。打分方式可以通过人类评价和比较强大的模型（ensemble）来进行，如图：

提示词工程

构建评测集需要对提示词有较高的要求，避免引入评测结果偏差，下面是一些例子，例如文本语义要明确，具体细节，迭代反馈、few-shot、思维链等一些prompt工程化技巧：

长文本评测

大海捞针测试（灵感来自 NeedleInAHaystack）是指通过将关键信息随机插入一段长文本的不同位置，形成大语言模型 (LLM) 的Prompt，通过测试大模型是否能从长文本中提取出关键信息，从而测试大模型的长文本信息提取能力的一种方法，可反映LLM长文本理解的基本能力。
-

社区与工具

通过工具-基准-榜单的体系，汇聚社区力量，来建设更好更快更全的评估体系。
- CompassHub：评测集社区，建设活跃的社区，来提供高效、高质量的评测集。
- CompassRank：权威性能榜单，发布榜单，在这个过程中洞察行业趋势。
- CompassKit：评测工具，支持使用者快速产出模型评估指标，支持的功能和相关的推理套件如下：

OpenCompass评测流水线

在这里插入图片描述
在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。

配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。
推理与评估：在这个阶段，OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率，但请注意，如果计算资源有限，这种策略可能会使评测变得更慢。如果需要了解该问题及解决方案，可以参考 FAQ: 效率。
可视化：评估完成后，OpenCompass 将结果整理成易读的表格，并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能，此后可以在飞书客户端中及时获得评测状态报告。

评估能力维度

基础能力：语言、知识、理解、数学、代码、推理
综合能力：考察大模型综合运用各类知识的能力，在考试、对话、创作、智能体、评价、长文本等任务场景下的能力。

自研的评测标注

在这里插入图片描述

MathBench：多层次数学能力评测基准，包括不同的难度，不同的语言。还包括循环评估，可以消除大模型对答案顺序的bias。
CriticBench：多维度LLM反思能力评估基准
T-Eval：大模型细粒度工具能力评测基准
F-Eval：大模型基础能力评测基准
CreationBench：多场景中文创作能力评测标准
CIBench：代码解释能力评测标准

一些垂类评测基准

OpenFinData：全场景金融评测基准
LawBench：大模型司法能力基准
MedBench ：中文医疗大模型评测基准
SecBench：网络安全评测基准**

在这里插入图片描述

参考笔记本信息

创建时间：2024/4/18 23:41
更新时间：2024/4/19 11:50
作者：1880ofpp828
URL: OpenCompass Tutorial

相关课程资源

视频地址：Bilibili Video
课程文档：GitHub Readme
课程作业：GitHub Homework
项目Star：OpenCompass GitHub

二、作业

基础作业

使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能（注意pip install protobuf，和export MKL_SERVICE_FORCE_INTEL=1两次配置缺失的报错）
在这里插入图片描述

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
OpenCompass司南大模型评测体系-书生·浦语大模型第二期实战营第七课笔记&作业

大模型评测，OpenCompass，司南，大模型榜单，评测
复制链接

扫一扫

专栏目录

will_liam_2024 CSDN认证博客专家 CSDN认证企业博客

码龄1年

10: 原创

145万+: 周排名

9万+: 总排名

9685: 访问

: 等级

323: 积分

160: 粉丝

222: 获赞

5: 评论

103: 收藏

私信

关注

热门文章

分类专栏

最新评论

OpenCompass司南大模型评测体系-书生·浦语大模型第二期实战营第七课笔记&作业
omelao: 在测试teval时遇到了Message: 'JsonDecode error, got'怎么解决呢
AWQ：Activation-aware Weight Quantization 用于LLM量化与加速-（1）背景与原理
CSDN-Ada助手: 恭喜作者在博客领域的持续创作，第10篇博文“AWQ：Activation-aware Weight Quantization 用于LLM量化与加速-（1）背景与原理”内容丰富，深入探讨了LLM量化与加速的相关原理。建议在下一步的创作中，可以继续深挖该领域的研究成果，对比不同方法的优缺点，为读者提供更多实用价值。期待作者更多精彩的文章！
微软大模型phi-3速览-3.7B比llama-3 8B更好？
CSDN-Ada助手: 恭喜你发布了第9篇博客！看到你对微软大模型phi-3和llama-3进行了比较，让我受益匪浅。不过，或许可以在下一篇博客中深入探讨一下它们在具体应用场景下的表现，或者结合实际案例进行分析，这样或许能让读者更加深入地了解它们的优劣势。期待你更多的创作！祝好！
Meta Llama3简单速览
CSDN-Ada助手: 恭喜您发布了第6篇博客“Meta Llama3简单速览”！不断坚持创作，分享有价值的内容真的很不容易，您的努力和热情让读者受益匪浅。希望您在写作的道路上能够继续保持热情，不断探索新的主题和观点，让读者在您的博客中找到更多启发和帮助。期待您的下一篇作品！祝好！
智能体agent学习--书生·浦语大模型第二期实战营第六课笔记&作业
CSDN-Ada助手: 恭喜您撰写了第5篇博客，题为“智能体agent学习--书生·浦语大模型第二期实战营第六课笔记&作业”。不断学习和分享知识是非常值得赞扬的，您的努力一定会得到回报。接下来，建议您可以尝试加入更多实例和案例分析，让读者更容易理解您的观点。期待您的下一篇作品，加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。