LLMs:LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性{PPL}+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】),大模型排行榜多种),两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API-Bank/ToolBench】)、特定下游任务基准(MATH/CUAD/MultiMedQA/GaoKao/SOCKET/CVALUES)之详细攻略
目录
1.2、六性(理解性+生成性+多样性+泛化性+能耗性+可解释性)
(1)、PPL指标(可作为文本生成能力指标但不绝对【因标点符号和助词非常影响PPL大小】,若PPL=15即模型生成下一个词平均有15个待选项):【1~优秀~10~GPT家族~50~一般~100~∞】
Chinese-LLaMA-Alpaca-2项目中的PPL代码实现
1.3、衡量大模型水平的9大维度(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】)
2、Open LLM Leaderboard大模型排行榜:基准自动测试综合平台
2023年5月Hugging Face社区的Open LLM Leaderboard排行榜,包括OpenLLM评估基准
2023年5月lmsys组织的Chatbot Arena排行榜
1、通用任务的基准:早期LM解决单任务→当前的LLMs解决多任务
A2、多任务评估基准(SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL)
2019年纽约大学+华盛顿大学+Deepmind,通用语言理解评估:GLUE/SuperGLUE基准,2019年ICLR
2020年9月UC Berkeley,大规模多任务语言理解:MMLU基准(多领域知识+偏理解+GPT-4吊炸天)
LLMs:MMLU基准(大规模多任务语言理解)的简介(MMLU-ZS/MMLU-FS)、安装、使用方法之详细攻略
2021年4月7日Facebook团队,DynaBench(动态基准测试,众包评估),
2022年6月谷歌,超越传统的图灵测试:BIG-bench基准(评估超越现有LLMs能力的任务,包含204个挑战性任务集合),谷歌
NLP:BIG-bench基准任务的简介、安装、使用方法之详细攻略
2022年11月斯坦福大学,语言模型的整体评估:HELM基准(各方面评估,16个场景和7类指标,如语言理解+生成+连贯性+常识推理+特定领域等),
2023年4月微软,标准化考试基准:AGIEval(多领域知识+评估以人为中心的标准化考试)
2023年5月上交清华,综合性的中文基础模型评估:C-EVAL(多学科+难度级别),
C-Eval指标—评估的实现过程:官方推荐使用 5-shot 的方式来让模型知道如何输出答案
2023年6月9日复旦大学,Xiezhi(评估不同任务和领域+理解模型固有局限性,13学科门类+516门学科+250w条数据)
2023年6月9日斯坦佛大学,AlpacaEval(自动评估基准,快速廉价+促进不同领域的发展),
2023年6月15日清华大学,KoLA(评估LLMs的语言理解和推理能力+19个任务+四级知识),
2023年6月23日腾讯优图实验室和厦门大学,MME(多模态大型语言模型的全面评估基准,如精心设计的指令-回答对)
2022年11月15日西湖大学,GLUE-X(创建一个统一的基准测试+13个数据集+21个常用PLMs+8个经典NLP任务,强调评估NLP模型OOD场景的鲁棒性)
2023年6月7日微软研究院+中科院等,PromptBench(评估提示工程+4K提示+8个任务+13个数据集+56W测试样本)、
2023年6月8日北京大学+西湖大学等,PandaLM(区分更优模型+客观正确性和主观因素+基于人工生成的上下文)
2023年4月14日阿里达摩院+北京大学,API-Bank(利用API增强LLMs,包含一个全面的工具增强LLM工作流【568个API调用】)
2023年5月清华大学,ToolBench(开源工具学习基准+使模型有效地利用通用工具的功能)
2021年3月5日UC Berkeley,MATH(评估数学领域推理和解决问题的能力+1.2W个数学问题)
2021年3月10日UC Berkeley,CUAD (解释法律合同+10位法律专家+1.3W的注释)
2021年5月20日,APPS(评估代码生成+衡量LM根据自然语言规范生成python代码的能力+1W个问题)
2022年12月26日,Google+DeepMind,MultiMedQA(医学QA+评估LLMs临床知识和QA能力)
2023年5月21日复旦大学和华东师范大学,GAOKAO-Bench(来自中国高考试题+两类(主观和客观),衡量复杂和情境特定中的任务)
2023年5月24日密歇根大学+东北大学+剑桥大学,SOCKET(理解社交语言+评估社会知识概念,5个类别+58个任务)
2023年6月8日阿里达摩学院,M3Exam(多语言+人类考试+独特而全面的评估框架,9种语言+1.2W问题+3个教育层次)
2023年7月19日阿里巴巴+北交,CVALUES (评估与人类价值观一致性+人性化的评估基准+10个场景+8个领域,侧重安全+责任)