compass 评测

最新推荐文章于 2024-08-09 22:24:25 发布

Orkeii

最新推荐文章于 2024-08-09 22:24:25 发布

阅读量401

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Orkeii/article/details/138453935

版权

本文探讨了大模型评测的挑战，如全面性、成本和数据污染，介绍了不同类型的模型评测策略，以及客观与主观评测的区别。重点提到了提示词工程在提高评测真实性的应用，并以OpenCompass为例，展示了如何评估实习模型在特定数据集上的性能。

摘要由CSDN通过智能技术生成

教程部分

评测背景，挑战与机遇

通过评测促进模型发展，了解模型的优点和缺点。
聚焦垂直领域，如医疗金融，测试模型在这些领域的能力。
构造高质量的中文评测体系，促进中文社区的大模型发展。
根据评测结果反补模型的迭代，提升模型的能力。
持续拓展评测能力维度，如数学代码智能体等。

2）挑战

大模型的评测面临全面性的挑战，需要构造一个能够扩展且覆盖面广的能力维度体系。
评测大模型的成本较高，包括GPU资源和人工打分的成本。
存在数据污染的问题，需要研发数据污染检测技术。
鲁棒性是另一个挑战，需要解决模型对提示词的敏感性。

如何测评对象：

模型评测根据类型划分，包括基座模型和SFT微调模型等。
评测基座模型需要设计特定方法。
评测开源的SFT模型需要考虑经过处理后的效果。
评测API模型需要发送网络请求并分析回复结果。
根据模型类型的不同，设定不同的评测方法。

主观和客观评价：

评测分为客观评测和主观评测。
客观评测包括问答题、选择题等，有固定答案。
主观评测包括开放性问答题，需要人工评价或模型评价。
主观评测可以采用打分或直接比较模型回答的方式。
评测方式的选择根据题目特点和成本考虑。

提示词工程：

提示词工程：对题目进行丰富，提供更具体的细节和要求。
模型推理：使用模型对丰富后的题目进行评测。
反映模型性能：通过丰富题目后的评测结果更真实地反映模型的性能
集中分数：避免泛泛而谈，导致分数偏向集中。
人工智能全面介绍：作为一个例子，说明题目宽泛缺乏细节的问题。

作业：

使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
compass 评测

compass 评测
复制链接

扫一扫

Orkeii CSDN认证博客专家 CSDN认证企业博客

码龄2年

8: 原创

144万+: 周排名

13万+: 总排名

4564: 访问

: 等级

142: 积分

81: 粉丝

62: 获赞

4: 评论

80: 收藏

私信

关注

热门文章

最新评论

compass 评测
CSDN-Ada助手: 恭喜您发布了第8篇博客“compass 评测”！看到您持续创作，不断分享有价值的内容，真是令人钦佩。希望您能继续保持写作的热情和耐心，不断提升自己的写作技巧和内容深度，为读者带来更多有启发性的文章。期待您下一篇博客的精彩呈现！
compass 评测
CSDN-Ada助手: 恭喜您发布第8篇博客“compass 评测”！不断创作的您展现了坚持和热情，让读者受益匪浅。希望您能继续保持这种积极的态度，不断提升自己的写作水平，拓展更多有趣的主题，让更多人受益。期待您的下一篇作品，加油！
RAG茴香豆
CSDN-Ada助手: 恭喜您又一次发布了新的博客“RAG茴香豆”！看来您对食物的研究越来越深入了。希望您能继续保持创作的热情，分享更多有趣的食谱和美食故事。或许下一步可以尝试探索一些地方特色的食材或者烹饪技巧，让读者们能够更全面地了解不同的美食文化。期待您的下一篇博客，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
轻松玩转书生·浦语大模型趣味 Demo的一些问题及解决
CSDN-Ada助手: 非常棒的博文！看到你解决问题的方法真是让人佩服。除了在代码和模型参数下载方面的技巧外，你可能还可以探索一些关于端口号、IP地址和网络连接方面的知识。了解这些内容可以帮助你更好地理解和解决类似的问题，提升自己的技能水平。期待看到你更多的分享，加油！✨现在就去学习一下网络相关知识吧！🌟 如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
书生C2作业
CSDN-Ada助手: 恭喜用户在书生C2作业中取得了进展，持续创作是非常不易的，您的努力和坚持值得称赞！在下一步的创作中，建议您可以尝试挑战不同风格或主题的作品，拓宽自己的创作领域，提升创作技巧。期待您更多精彩的作品，加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。