测试模型基线能力之有手就行PromptBench

PromptBench是一个统一的评估框架,用于测试大型语言模型的性能,涵盖模型、任务、数据集、提示模板和攻击性测试等多方面。支持多种开源和商用模型,提供丰富的NLP任务和数据集,包括GLUE、MMLU等。通过该项目,用户可以对模型进行基线能力评测,但需要注意内容过滤政策。文章提供了基本使用教程,鼓励读者测试自己的模型并挑战现有的AI系统。
摘要由CSDN通过智能技术生成

以前我说过微软出的AI开源没几个有用的,deepspeed,Autogen算两个,今天我觉得有必要加一个promptbench

      我相信我的读者,或多或少对模型训练是有概念的,再不济微调也是玩过的,同时我也相信百分之80以上的读者,是没有对模型进行基线能力评测的经验的

  • 其实究其原因,方法论缺失只占百分之十,比如如何设计prompt问答测试对

  • 真正核心能力缺失主要是不知道去哪找测试的datasets

      

     这个project可以满足你缺失内容至少百分之75以上的补齐,所以我称他为好项目
     下图从多个角度展示了PromptBench的能力圈,主要分为以下几个维度:

模型维度:什么T5,Llama这些开源的,GPT,Gemini这些商用的也都支持(新模型也可以自己改源码加)

任务:自然语言生成,多任务理解,情感分析啥的,你能想到的,和你想象不到的NLP任务,它几乎都覆盖了

Datasets: 重点中的重点,GLUE,MMLU,Mathematics一堆,api直接下载,我愿意称为最强

Prompts&Engineering: 传统的,高级的prompt模板都有,0 shot,few shot, COT能力也都在线

Attacks:这块其实平时我跟朋友们聊天大家不太注意这个,但是对于攻击性测试,如果你的模型想要商用,我觉得你要重点关注这块,这个人家也给你集成进来了

Protocals: 标准eval,动态eval,语义化eval啥

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值