LLMs:LLMs大语言模型评估的简介(两标+六性+九维,大模型排行榜多种),两类基准—通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【Super

508 篇文章 126 订阅
472 篇文章 362 订阅

LLMs:LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性{PPL}+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】),大模型排行榜多种),两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API-Bank/ToolBench】)、特定下游任务基准(MATH/CUAD/MultiMedQA/GaoKao/SOCKET/CVALUES)之详细攻略

目录

相关文章

LLMs:大型语言模型评估研究综述—理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设计更强大模型的关键工具)、评估LLMs的四大意义、三维度(What+Where+How)综述LLMs评估、LLMs大语言模型的三大关键(Transformer+RLHF+提示工程)、评估LLMs任务五大类(NLURG+REBT+SS+NS+MA+Agent)、基准测试的两类(通用任务/特定下游任务)、评估的两种方式(自动/人工)、LLMs的成功(四类)与失败(四类)案例、未来七大机遇(设计AGI基准测试+完整的行为评估+鲁棒性评估+动态与演进的评估【LLMs的记忆性导致训练数据污染】+审查评估系统本身+统一评估+超越评估)

LLMs大语言模型评估的简介

1、大模型的评估的概述

1.1、两标(NLUGR指标/REBT指标)

1.2、六性(理解性+生成性+多样性+泛化性+能耗性+可解释性)

(1)、PPL指标(可作为文本生成能力指标但不绝对【因标点符号和助词非常影响PPL大小】,若PPL=15即模型生成下一个词平均有15个待选项):【1~优秀~10~GPT家族~50~一般~100~∞】

Chinese-LLaMA-Alpaca-2项目中的PPL代码实现

1.3、衡量大模型水平的9大维度(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】)

2、Open LLM Leaderboard大模型排行榜:基准自动测试综合平台

2023年5月Hugging Face社区的Open LLM Leaderboard排行榜,包括OpenLLM评估基准

2023年5月lmsys组织的Chatbot Arena排行榜

LLMs的常见评估基准

1、通用任务的基准:早期LM解决单任务→当前的LLMs解决多任务

A1、单任务评估基准BLEU/ROUGE)

2001年IBM提出,BLEU(评估机器翻译质量)

2004年南加州大学提出,ROUGE(摘要评估)

2023年6月9日lmsys组织提出,对话评估(与人类偏好之间的一致性)—MT-Bench(多轮对话+0.3W专家投票)、Chatbot Arena(众包式对战平台+收集用户参的投票+3W人类偏好对话)

A2、多任务评估基准(SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL)

2019年纽约大学+华盛顿大学+Deepmind,通用语言理解评估:GLUE/SuperGLUE基准,2019年ICLR

中文基准CLUE

NLP:自然语言处理常用任务简介(七大任务/两大层次(顶层5种+底层4种)/LLMs四大类)、GLUE基准(通用语言理解评估,四类九个)和SuperGLUE基准的简介(国内系列/国际系列)使用方法之详细攻略

2020年9月UC Berkeley,大规模多任务语言理解:MMLU基准(多领域知识+偏理解+GPT-4吊炸天)

国际基准MMLU,UC Berkeley

LLMs:MMLU基准(大规模多任务语言理解)的简介(MMLU-ZS/MMLU-FS)、安装、使用方法之详细攻略

中文基准MMCU

2021年4月7日Facebook团队,DynaBench(动态基准测试,众包评估),

2022年6月谷歌,超越传统的图灵测试:BIG-bench基准(评估超越现有LLMs能力的任务,包含204个挑战性任务集合),谷歌

NLP:BIG-bench基准任务的简介、安装、使用方法之详细攻略

2022年11月斯坦福大学,语言模型的整体评估:HELM基准(各方面评估,16个场景和7类指标,如语言理解+生成+连贯性+常识推理+特定领域等),

2023年4月微软,标准化考试基准:AGIEval(多领域知识+评估以人为中心的标准化考试)

2023年5月上交清华,综合性的中文基础模型评估:C-EVAL(多学科+难度级别),

C-Eval指标—评估的实现过程:官方推荐使用 5-shot 的方式来让模型知道如何输出答案

2023年6月9日复旦大学,Xiezhi(评估不同任务和领域+理解模型固有局限性,13学科门类+516门学科+250w条数据)

2023年6月9日斯坦佛大学,AlpacaEval(自动评估基准,快速廉价+促进不同领域的发展),

2023年6月15日清华大学,KoLA(评估LLMs的语言理解和推理能力+19个任务+四级知识),

2023年6月23日腾讯优图实验室和厦门大学,MME(多模态大型语言模型的全面评估基准,如精心设计的指令-回答对)

A3、超出标准性能的任务

2022年11月15日西湖大学,GLUE-X(创建一个统一的基准测试+13个数据集+21个常用PLMs+8个经典NLP任务,强调评估NLP模型OOD场景的鲁棒性)

2023年6月7日微软研究院+中科院等,PromptBench(评估提示工程+4K提示+8个任务+13个数据集+56W测试样本)、

2023年6月8日北京大学+西湖大学等,PandaLM(区分更优模型+客观正确性和主观因素+基于人工生成的上下文)

A4、使用工具增强LLMs的评估基准

2023年4月14日阿里达摩院+北京大学,API-Bank(利用API增强LLMs,包含一个全面的工具增强LLM工作流【568个API调用】)

2023年5月清华大学,ToolBench(开源工具学习基准+使模型有效地利用通用工具的功能)

2、特定下游任务的基准

A1、常规任务

2021年3月5日UC Berkeley,MATH(评估数学领域推理和解决问题的能力+1.2W个数学问题)

2021年3月10日UC Berkeley,CUAD (解释法律合同+10位法律专家+1.3W的注释)

2021年5月20日,APPS(评估代码生成+衡量LM根据自然语言规范生成python代码的能力+1W个问题)

2022年12月26日,Google+DeepMind,MultiMedQA(医学QA+评估LLMs临床知识和QA能力)

2023年5月21日复旦大学和华东师范大学,GAOKAO-Bench(来自中国高考试题+两类(主观和客观),衡量复杂和情境特定中的任务)

2023年5月24日密歇根大学+东北大学+剑桥大学,SOCKET(理解社交语言+评估社会知识概念,5个类别+58个任务)

2023年6月8日阿里达摩学院,M3Exam(多语言+人类考试+独特而全面的评估框架,9种语言+1.2W问题+3个教育层次)

2023年7月19日阿里巴巴+北交,CVALUES (评估与人类价值观一致性+人性化的评估基准+10个场景+8个领域,侧重安全+责任)

LLMs大语言模型评估的使用方法


相关文章

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值