LLMs：LLMs大语言模型评估的简介(两标+六性+九维，大模型排行榜多种)，两类基准—通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【Super

一个处女座的程序猿

已于 2024-04-13 00:35:42 修改

阅读量4.1k

点赞数 4

分类专栏： NLP/LLMs ML 资深文章(前沿/经验/创新) 文章标签：自然语言处理基础大模型评估

于 2023-07-30 22:46:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41185868/article/details/132012986

版权

资深文章(前沿/经验/创新) 同时被 3 个专栏收录

113 篇文章 12 订阅 ¥299.90 ¥99.00

订阅专栏

508 篇文章 126 订阅

订阅专栏

472 篇文章 362 订阅

订阅专栏

LLMs：LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性{PPL}+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】)，大模型排行榜多种)，两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API-Bank/ToolBench】)、特定下游任务基准(MATH/CUAD/MultiMedQA/GaoKao/SOCKET/CVALUES)之详细攻略

目录

LLMs：大型语言模型评估研究综述—理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设计更强大模型的关键工具)、评估LLMs的四大意义、三维度(What+Where+How)综述LLMs评估、LLMs大语言模型的三大关键(Transformer+RLHF+提示工程)、评估LLMs任务五大类(NLURG+REBT+SS+NS+MA+Agent)、基准测试的两类(通用任务/特定下游任务)、评估的两种方式(自动/人工)、LLMs的成功(四类)与失败(四类)案例、未来七大机遇(设计AGI基准测试+完整的行为评估+鲁棒性评估+动态与演进的评估【LLMs的记忆性导致训练数据污染】+审查评估系统本身+统一评估+超越评估)

LLMs大语言模型评估的简介

1、大模型的评估的概述

1.1、两标(NLUGR指标/REBT指标)

1.2、六性(理解性+生成性+多样性+泛化性+能耗性+可解释性)

(1)、PPL指标(可作为文本生成能力指标但不绝对【因标点符号和助词非常影响PPL大小】，若PPL=15即模型生成下一个词平均有15个待选项)：【1~优秀~10~GPT家族~50~一般~100~∞】

Chinese-LLaMA-Alpaca-2项目中的PPL代码实现

1.3、衡量大模型水平的9大维度(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】)

2、Open LLM Leaderboard大模型排行榜：基准自动测试综合平台

2023年5月Hugging Face社区的Open LLM Leaderboard排行榜，包括OpenLLM评估基准

2023年5月lmsys组织的Chatbot Arena排行榜

LLMs的常见评估基准

1、通用任务的基准：早期LM解决单任务→当前的LLMs解决多任务

A1、单任务评估基准BLEU/ROUGE)

2001年IBM提出，BLEU(评估机器翻译质量)

2004年南加州大学提出，ROUGE(摘要评估)

2023年6月9日lmsys组织提出，对话评估(与人类偏好之间的一致性)—MT-Bench(多轮对话+0.3W专家投票)、Chatbot Arena(众包式对战平台+收集用户参的投票+3W人类偏好对话)

A2、多任务评估基准(SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL)

2019年纽约大学+华盛顿大学+Deepmind，通用语言理解评估：GLUE/SuperGLUE基准，2019年ICLR

中文基准CLUE

NLP：自然语言处理常用任务简介(七大任务/两大层次(顶层5种+底层4种)/LLMs四大类)、GLUE基准(通用语言理解评估，四类九个)和SuperGLUE基准的简介(国内系列/国际系列)使用方法之详细攻略

2020年9月UC Berkeley，大规模多任务语言理解：MMLU基准(多领域知识+偏理解+GPT-4吊炸天)

国际基准MMLU，UC Berkeley

LLMs：MMLU基准(大规模多任务语言理解)的简介(MMLU-ZS/MMLU-FS)、安装、使用方法之详细攻略

中文基准MMCU

2021年4月7日Facebook团队，DynaBench(动态基准测试，众包评估)，

2022年6月谷歌，超越传统的图灵测试：BIG-bench基准(评估超越现有LLMs能力的任务，包含204个挑战性任务集合)，谷歌

NLP：BIG-bench基准任务的简介、安装、使用方法之详细攻略

2022年11月斯坦福大学，语言模型的整体评估：HELM基准(各方面评估，16个场景和7类指标，如语言理解+生成+连贯性+常识推理+特定领域等)，

2023年4月微软，标准化考试基准：AGIEval(多领域知识+评估以人为中心的标准化考试)

2023年5月上交清华，综合性的中文基础模型评估：C-EVAL(多学科+难度级别)，

C-Eval指标—评估的实现过程：官方推荐使用 5-shot 的方式来让模型知道如何输出答案

2023年6月9日复旦大学，Xiezhi(评估不同任务和领域+理解模型固有局限性，13学科门类+516门学科+250w条数据)

2023年6月9日斯坦佛大学，AlpacaEval(自动评估基准，快速廉价+促进不同领域的发展)，

2023年6月15日清华大学，KoLA(评估LLMs的语言理解和推理能力+19个任务+四级知识)，

2023年6月23日腾讯优图实验室和厦门大学，MME(多模态大型语言模型的全面评估基准，如精心设计的指令-回答对)

A3、超出标准性能的任务

2022年11月15日西湖大学，GLUE-X(创建一个统一的基准测试+13个数据集+21个常用PLMs+8个经典NLP任务，强调评估NLP模型OOD场景的鲁棒性)

2023年6月7日微软研究院+中科院等，PromptBench(评估提示工程+4K提示+8个任务+13个数据集+56W测试样本)、

2023年6月8日北京大学+西湖大学等，PandaLM(区分更优模型+客观正确性和主观因素+基于人工生成的上下文)

A4、使用工具增强LLMs的评估基准

2023年4月14日阿里达摩院+北京大学，API-Bank(利用API增强LLMs，包含一个全面的工具增强LLM工作流【568个API调用】)

2023年5月清华大学，ToolBench(开源工具学习基准+使模型有效地利用通用工具的功能)

2、特定下游任务的基准

A1、常规任务

2021年3月5日UC Berkeley，MATH(评估数学领域推理和解决问题的能力+1.2W个数学问题)

2021年3月10日UC Berkeley，CUAD (解释法律合同+10位法律专家+1.3W的注释)

2021年5月20日，APPS(评估代码生成+衡量LM根据自然语言规范生成python代码的能力+1W个问题)

2022年12月26日，Google+DeepMind，MultiMedQA(医学QA+评估LLMs临床知识和QA能力)

2023年5月21日复旦大学和华东师范大学，GAOKAO-Bench(来自中国高考试题+两类(主观和客观)，衡量复杂和情境特定中的任务)

2023年5月24日密歇根大学+东北大学+剑桥大学，SOCKET(理解社交语言+评估社会知识概念，5个类别+58个任务)

2023年6月8日阿里达摩学院，M3Exam(多语言+人类考试+独特而全面的评估框架，9种语言+1.2W问题+3个教育层次)

2023年7月19日阿里巴巴+北交，CVALUES (评估与人类价值观一致性+人性化的评估基准+10个场景+8个领域，侧重安全+责任)

LLMs大语言模型评估的使用方法

相关文章

了解本专栏

一个处女座的程序猿

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
LLMs：LLMs大语言模型评估的简介(两标+六性+九维，大模型排行榜多种)，两类基准—通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【Super

LLMs：LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】)，大模型排行榜多种)，两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个处女座的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。