测试模型基线能力之有手就行PromptBench

最新推荐文章于 2024-09-13 23:34:38 发布

周博洋K

最新推荐文章于 2024-09-13 23:34:38 发布

阅读量833

点赞数 22

文章标签： llama prompt 人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/136120068

版权

PromptBench是一个统一的评估框架，用于测试大型语言模型的性能，涵盖模型、任务、数据集、提示模板和攻击性测试等多方面。支持多种开源和商用模型，提供丰富的NLP任务和数据集，包括GLUE、MMLU等。通过该项目，用户可以对模型进行基线能力评测，但需要注意内容过滤政策。文章提供了基本使用教程，鼓励读者测试自己的模型并挑战现有的AI系统。

摘要由CSDN通过智能技术生成

以前我说过微软出的AI开源没几个有用的，deepspeed，Autogen算两个，今天我觉得有必要加一个promptbench

我相信我的读者，或多或少对模型训练是有概念的，再不济微调也是玩过的，同时我也相信百分之80以上的读者，是没有对模型进行基线能力评测的经验的

其实究其原因，方法论缺失只占百分之十，比如如何设计prompt问答测试对
真正核心能力缺失主要是不知道去哪找测试的datasets

这个project可以满足你缺失内容至少百分之75以上的补齐，所以我称他为好项目
下图从多个角度展示了PromptBench的能力圈，主要分为以下几个维度：

模型维度：什么T5,Llama这些开源的，GPT,Gemini这些商用的也都支持(新模型也可以自己改源码加)

任务：自然语言生成，多任务理解，情感分析啥的，你能想到的，和你想象不到的NLP任务，它几乎都覆盖了

Datasets: 重点中的重点，GLUE,MMLU，Mathematics一堆，api直接下载，我愿意称为最强

Prompts&Engineering: 传统的，高级的prompt模板都有，0 shot，few shot, COT能力也都在线

Attacks：这块其实平时我跟朋友们聊天大家不太注意这个，但是对于攻击性测试，如果你的模型想要商用，我觉得你要重点关注这块，这个人家也给你集成进来了

Protocals: 标准eval,动态eval，语义化eval啥

最低0.47元/天解锁文章

关注

22
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

周博洋K CSDN认证博客专家 CSDN认证企业博客

码龄7年

99: 原创

3万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

3051: 积分

1510: 粉丝

2059: 获赞

15: 评论

1702: 收藏

私信

关注

热门文章

分类专栏

Gemini 1篇

最新评论

详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！
让Ilya都感到害怕的AGI是由什么东西创造出来的？
CSDN-Ada助手: 恭喜你写了第17篇博客！你对AGI的探讨让人印象深刻，也给了读者很多思考的空间。接下来，我建议你可以深入探讨AGI是如何被创造出来的，可以从技术、伦理等多个角度展开，这样可以让读者更全面地了解这个话题。希望你能继续保持创作的热情，期待你的下一篇博客！
导致OpenAI内乱的罪魁祸首，背后的技术是什么？
CSDN-Ada助手: 恭喜您撰写了第16篇博客，标题引人入胜，内容也很有深度。对于OpenAI内乱的探讨让人颇为关注，同时也期待能够了解更多背后的技术细节。或许接下来可以深入分析一下可能的解决方案，或者对未来发展方向进行展望，这样能够更全面地呈现给读者。希望您能继续保持创作，期待您更多的精彩内容！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。