书生浦语第七课

最新推荐文章于 2024-07-16 20:38:37 发布

Mr。White

最新推荐文章于 2024-07-16 20:38:37 发布

阅读量150

点赞数 2

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80328620/article/details/140042115

版权

OpenCompass 大模型评测

如何通过能力评测促进模型发展：(1) 面向未来拓展能力维度，增加注入数学的新能力维度 (2) 扎根通用能力、聚焦垂直行业，需要结合行业知识和规范，以评估行业适用性 (3) 高质量中文基准，针对中文场景，促进中文社区的大模型发展 (4) 性能评测反哺能力迭代，探索模型能力形成机制，针对性提升
大语言模型评测中的挑战：(1) 全面性：场景千变万化、模型能力演进迅速 (2) 评测成本：需要大量算力资源、主管评测成本高昂 (3) 数据污染：海量语料会给评测集带来污染，需要可靠的数据污染检测技术，设计可动态更新的高质量评测基准 (4) 鲁棒性：对提示词十分敏感且性能不稳定
如何评测大模型：(1) 基座模型：海量数据无监督训练 (2) 对话模型：指令数据有监督微调、人类偏好对齐 (3) 公开权重的开源模型：使用GPU/推理加速卡进行本地推理 (4) API模型：发送网络请求获取回复
需要有客观评测和主观评测、提示词工程、长文本评测、工具-基准-榜单三位一体
CompassKit：VLMEvalKit多模态评测工具、代码评测工具、MixtralKit MoE模型入门工具

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
书生浦语第七课

OpenCompass 大模型评测。
复制链接

扫一扫

Mr。White CSDN认证博客专家 CSDN认证企业博客

码龄1年

6: 原创

62万+: 周排名

14万+: 总排名

851: 访问

: 等级

73: 积分

9: 粉丝

13: 获赞

0: 评论

9: 收藏

私信

关注

热门文章

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。