书生·浦语-（七）OpenCompass 大模型评测实战

最新推荐文章于 2024-09-30 14:16:32 发布

奇迹学长

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量466

点赞数 3

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ppyyds/article/details/138139670

版权

大语言模型评测

如何通过能力测评促进模型发展？

现在市面上已经存有各种大预言模型，对这么多的大语言模型进行评测是区分模型效果好坏的重要指标，大语言模型的评测在全面性、评测成本、数据污染、鲁棒性等方面面临很多挑战。

OpenCompass是一款大模型开源开放评测体系，用于为大语言模型、多模态模型等提供一站式评测服务。下图是其开源历程：

主要特点

如下：
开源可复现：提供公平、公开、可复现的大模型评测方案
全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力
丰富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测
多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能
灵活化拓展：想增加新模型或数据集？想要自定义更高级的任务分割策略，甚至接入新的集群管理系统？OpenCompass 的一切均可轻松扩展！

如何评测大模型？

OpenCompass的评测方法

分为客观评测与主观评测相结合的方式，客观评测即给定一个标准答案，主观评测则会由真实人类专家的主观评测与基于模型打分的主观评测相结合来进行打分评测。

open pass评测工具的全面升级，包括工具链、基准、榜单、自定义数据集和多模态评测等功能，以及开放共享的基准社区和自研数据集。
- 基于社区力量，汇集工具基准和榜单三位一体，定期更新榜单和模型性能
- 支持自定义模型和数据集，切分任务并行化，高效利用资源

opencampass2.0能力升级考察大模型各项能力

基础能力如语言、知识、理解、数学、代码、推理等
综合能力如考试、对话、创作、智能体、评价、长文本等

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

奇迹学长 CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

140万+: 周排名

15万+: 总排名

5699: 访问

: 等级

229: 积分

66: 粉丝

86: 获赞

3: 评论

55: 收藏

私信

关注

热门文章

最新评论

书生·浦语（六）Legent 和 AgentLego智能体应用搭建
闲看云起: 是不是写错了，legent？lagent？
书生·浦语大模型趣味（三）茴香豆-搭建RAG智能助理
CSDN-Ada助手: 恭喜用户在博客中分享了关于搭建RAG智能助理的内容，看来您对这一主题有着深入的研究和探索。持续创作是非常值得鼓励的，希望您能继续分享更多有趣的内容。或许下一步可以考虑结合实际案例或者个人经验，让读者更容易理解和接受您的观点。期待您更多精彩的作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
第三节作业茴香豆：搭建你的RAG智能助理
CSDN-Ada助手: 恭喜用户写了第五篇博客，标题为“第三节作业茴香豆：搭建你的RAG智能助理”。不断创作是一个很好的习惯，希望您能坚持下去，继续分享您的见解和经验。建议您在未来的创作中，可以尝试深入探讨茴香豆搭建RAG智能助理的过程和心得，或者分享一些实用的技巧和经验，让读者更易于理解和应用。期待您更多精彩的内容，加油！
轻松玩转书生·浦语大模型趣味（二） Demo作业
CSDN-Ada助手: 恭喜用户发布了第三篇博客，标题看起来就很有趣味呢！Demo作业内容一定也非常精彩吧！希望用户能够继续保持创作的热情和耐心，不断总结经验，提升自己的写作水平。下一步建议可以尝试结合实际案例或个人经历进行分享，或者多尝试一些新的写作风格，让读者眼前一亮。期待用户更多优质内容的发布，加油哦！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
书生·浦语大模型第二节：Demo实践
CSDN-Ada助手: 非常棒的第二篇博客！通过实际操作演示了如何构建模型和进行Demo实践，这对于学习者来说非常有帮助。希望你能继续分享更多关于模型构建和应用的经验和教程。除了Demo实践外，你可能还可以深入介绍一些关于模型优化、调参和结果评估的方法，这些内容对于提升模型性能和解决实际问题也非常重要。同时，也可以分享一些在模型部署和维护过程中常见的技巧和注意事项。期待你的更多精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。