书生·浦语大模型实战营第二期学习笔记及作业（7）

最新推荐文章于 2024-07-06 00:06:29 发布

qq_39310059

最新推荐文章于 2024-07-06 00:06:29 发布

阅读量1.2k

点赞数 26

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39310059/article/details/138224311

版权

本文探讨了大模型评测的重要性和挑战，介绍了司南评测体系2.0的升级特性，如开源、全面能力维度、分布式评测和多模态支持。此外，还展示了如何使用OpenCompass评测工具评估语言大模型，以实习LM模型在C-Eval数据集的表现为例。

摘要由CSDN通过智能技术生成

视频链接：OpenCompass 大模型评测实战_哔哩哔哩_bilibili

github教程链接：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md

一、笔记

1、大模型评测的重要性以及评测所面临的挑战，并详细讲解了司南评测体系2.0的实现方法和特点。

首先，研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平，但仍然存在质疑，即这些模型的能力是否只是对训练数据的记忆而非真正的理解。例如，即使只提供LeetCode题目编号而不提供具体信息，大型语言模型也能够正确输出答案，这暗示着训练数据可能存在污染现象。

其次，研究评测有助于指导和改进人类与大型语言模型之间的协同交互。考虑到大型语言模型的最终服务对象是人类，为了更好地设计人机交互的新范式，我们有必要全面评估模型的各项能力。

最后，研究评测可以帮助我们更好地规划大型语言模型未来的发展，并预防未知和潜在的风险。随着大型语言模型的不断演进，其能力也在不断增强。通过合理科学的评测机制，我们能够从进化的角度评估模型的能力，并提前预测潜在的风险，这是至关重要的研究内容。

对于大多数人来说，大型语言模型可能似乎与他们无关，因为训练这样的模型成本较高。然而，就像飞机的制造一样，尽管成本高昂，但一旦制造完成，大家使用的机会就会非常频繁。因此，了解不同语言模型之间的性能、舒适性和安全性，能够帮助人们更好地选择适合的模型，这对于研究人员和产品开发者而言同样具有重要意义。

2、opencompass评测工具的全面升级，包括工具链、基准、榜单、自定义数据集和多模态评测等功能，以及开放共享的基准社区和自研数据集。

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下：

开源可复现：提供公平、公开、可复现的大模型评测方案

全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力

丰富的模型支持：已支持 20+ HuggingFace 及 API 模型

分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测

多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能

灵活化拓展：想增加新模型或数据集？想要自定义更高级的任务分割策略，甚至接入新的集群管理系统？OpenCompass 的一切均可轻松扩展！

3、评测对象

本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。

基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。

对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。

二·、作业

使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能

关注

26
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
书生·浦语大模型实战营第二期学习笔记及作业（7）

视频链接：OpenCompass 大模型评测实战_哔哩哔哩_bilibiligithub教程链接：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md1、大模型评测的重要性以及评测所面临的挑战，并详细讲解了司南评测体系2.0的实现方法和特点。首先，研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平，但仍然存在质疑，即这些模型的能力是否只是对训练数据
复制链接

扫一扫

博客等级

码龄7年

7
原创

93
点赞

84
收藏

91
粉丝

关注

私信

热门文章

最新评论

书生·浦语大模型实战营第二期学习笔记及作业（6）
CSDN-Ada助手: 恭喜您发布了第6篇博客！看到您对书生·浦语大模型实战营第二期学习的认真总结和作业完成，让我感到十分欣慰。希望您能继续保持这种学习的热情和努力，坚持不懈地创作下去。在未来的创作中，可以尝试加入更多个人见解或心得体会，这样可以让读者更加深入地了解您的学习过程和收获。期待您更多精彩的作品，加油！
书生·浦语大模型实战营第二期学习笔记及作业（7）
CSDN-Ada助手: 恭喜作者发布了第7篇博客！看到你参加了浦语大模型实战营第二期学习，并分享了学习笔记及作业，真是非常勤奋和努力。希望你能继续坚持创作，不断提升自己的写作水平。下一步建议可以尝试更多样的题材和观点，拓宽自己的写作领域，相信你会有更多的收获和进步的！加油！
书生·浦语大模型实战营第二期学习笔记及作业（3）
CSDN-Ada助手: 恭喜用户在浦语大模型实战营第二期学习中取得了显著进步，并分享了学习笔记和作业。希望用户能够继续坚持不懈地创作并分享自己的学习心得体会，不断提升自己的写作水平和表达能力。建议用户在下一篇博客中可以尝试结合实际案例或个人经历，更加生动地展示学习成果，让读者能够更加深入地了解学习过程和收获。期待用户更多精彩的创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
书生·浦语大模型实战营第二期学习笔记及作业（2）
CSDN-Ada助手: 太棒了！看到你在书生·浦语大模型实战营第二期学习笔记（2）中的收获和成果让我感到非常振奋。你对模型和智能对话模型的学习和实践让人印象深刻，而且你在准备申请网络流量分类项目方面的决心也非常值得称赞。除了学习笔记中提到的内容，我想分享一些关于微调模型的技能扩展。在微调模型时，可以尝试使用不同的预训练模型、调整学习率和增加训练数据等方法来提升模型性能。另外，对于部署模型，可以尝试使用更高级的部署技术如Docker和Kubernetes来提高效率和稳定性。希望你能继续保持热情和努力，不断探索和学习，相信你一定会取得更大的进步和成就！期待看到你更多精彩的分享和成果，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。