10 月 1 日 Meta Llama 团队重磅发布了评估 LLM 多领域能力的 CrossEval,总结出 Law of the Weakest Link,公布了最新的技术报告 共 60 页,来和小编一探究竟吧!
在这个项目中,我们逐步系统地探索了大语言模型 Cross 能力的概念。
大型语言模型的开发和评估主要集中在单项能力上。通常,开发人员根据不同的能力构建专门的数据集,然后通过混合这些数据源来训练模型。然而,这忽视了现实世界任务中经常需要的不同类型专业知识的多种能力的交叉,我们将其称为 Cross 能力。
什么是 Cross 能力?
例子:
-
考虑一个用户提示,这样的任务需要将工具使用(web浏览)与分析推理集成在一起。
-
当开发人员提供HTML和JavaScript代码并提出要求时,模型必须将长上下文理解与编码专业知识结合起来。
定义
- 我们将这些场景定义为交叉能力——跨不同类型专业知识的多种不同能力的交叉,以解决复杂的现实世界任务。
我们首先确定 LLM 的七个核心单项能力,然后将它们配对形成七个常见Cross 能力,每个能力都由人工构建的分类法支持。
-
Individual Capabilities: 单项能力:
-
English
-
Reasoning
-
Coding
-
Image Recognition
-
Tool Use
-
Long Context
-
Spanish
-
Cross Capabilities: 交叉功能:
-
Coding & Reasoning
-
Image Recognition & Reasoning
-
Tool Use & Coding
-
Tool Use & Reasoning
-
Long Context & Coding
-
Spanish & Reasoning
-
Spanish & Image Recognition
分类:
-
如图所示,这些分类法遵循分层设计:根节点表示单个或交叉能力,接下来的两层(第1层和第2层类别)将这些能力分解为越来越具体的任务。
-
该框架明确区分了依赖于单个能力的任务和需要集成多种能力的任务,允许跨各种场景对 LLM 进行全面评估。
为了对 LLM 的交叉能力进行基准测试,我们引入了CrossEval基准,包括:
-
Prompts: 1400个专家标注的 Prompt,每个功能有100个Prompts
-
Category: 根据分类法按级别1和2对每个提示进行分类
-
Difficulty Level: 难度等级:10%简单,30%中等,60%困难
-
参考示例:
-
Responses: 每个提示3个模型响应
-
Expert reviews: 2个人工评分并对每个模型响应进行解释
-
共有4200个模型响应和8400个专家评论
-
Prompting LLMs for Evaluation
-
Multi-reference-based prompting: 当使用LLM-as-a-Judge时,最多提供两个参考回答以及它们的评级和解释作为上下文。例如,在评估第一个响应时,LLM可以给出其他响应的四个评级。
-
**Point-deduction-based prompting:**LLM-as-a-Judge范式倾向于更长的、更结构化的回答,这导致了虚高的评估分数。为了解决这个问题,不是直接分配分数,而是委托llm总结参考示例和评估中的响应中的问题,并指定扣分。
-
Correlations between LLM ratings and human judgments:
-
每个LLM在评估不同能力方面都表现出特定的优势。
-
通过我们的参考例子和提示方法,LLM评估者与专家标注者对交叉值的判断的皮尔逊相关系数达到了近0.7。
-
关于参考样本数量的消融研究:
-
如图所示,一个明显的趋势出现了:随着参考示例数量的增加,所有三个相关性指标都有明显的提高。
-
值得注意的是,在评估基准中的新模型响应时,我们提供了所有三个参考示例,这可能会导致更高的相关性。
表中提供了来自5个模型族的17个llm的完整结果。我们的实验揭示了几个关键发现:
-
CrossEval有效地区分了高级模型:
-
CrossEval基准成功区分了最先进的 LLM。
-
例如,四种Claude模型变体在能力中取得了越来越高的分数:56.81,62.88,66.22和71.54。
-
LLM 在交叉能力方面表现出“最弱环节定律”效应:
-
在交叉能力评价中,若某项能力的绝对得分差值超过3分,则将其中一项能力定义为较强,另一项能力定义为较弱。
-
在58种存在这种差异的跨能力场景中,38种场景的性能低于两种单独能力(红色背景),20种场景的性能介于两者之间,但更接近较弱的能力(蓝色背景)。
-
值得注意的是,没有交叉能力得分接近或超过更强的单项能力。
-
工具调用是LLMs目前最具挑战性的能力:
-
提示集包括涉及网页浏览和代码解释的任务,Llama 3.1是目前唯一同时支持这两种模型的模型族。
-
然而,这些能力的得分明显低于其他能力的得分,这表明需要改进的关键领域。
-
LLM 在跨能力任务中表现不佳:
-
尽管我们努力在单项和跨能力任务中保持一致的难度水平,LLM 通常在需要多种能力的任务上表现较差。
-
在所有模型中,个体能力的平均得分为65.72,而交叉能力的平均得分为58.67,显示出显著的性能差距。
-
“Law of the Weakest Link”效应与评估者无关:
-
“Law of the Weakest Link” 适用于任何评估者。使用GPT-4o时,密度峰值略低于较弱的能力,而Claude 3.5 Sonnet在较弱的能力上显示略有峰值。然而,在这两种情况下,性能都紧密围绕较弱的能力聚集。
-
“Law of the Weakest Link” 效应表明,个体能力的缺陷会在很大程度上限制任何涉及该能力的跨能力任务的性能。
-
CrossEval基准为识别LLM弱点提供了基础,但需要进一步研究,以更全面地诊断和解决这些缺陷,而不影响其他能力。
Case Study on Individual-Capability Alterations
除了评估crossseval上LLM的个体和交叉能力之间的关系外,还探讨了关键的后续问题:当我们调整特定能力的性能时,这如何影响交叉能力性能?为在llm中探索这一点,本文提出一种旨在调节llm的特定能力的提示方法。本文提出涉及两个llm的案例研究,以说明这些改变的影响。
-
基于原理的系统提示:
-
为了可靠地探索改变单项能力的影响,我们的目标是在不显著影响他人的情况下增强特定的能力。
-
所提出的解决方案是一种基于原理的方法,不断改进系统提示以增强LLMs的特定能力。它建立在CrossEval数据集的基础上,有选择地提高单项能力。
-
研究单项能力改变的影响:
-
在跨能力场景中,更改较弱的能力会对整体性能产生显著影响,而更改较强的能力只会导致较小的调整。
-
在两个模型检查的18个交叉能力得分中,我们观察到一单项的能力提高,而另一单项的能力下降。值得注意的是,在90%的情况下,交叉能力性能的变化与较弱能力的变化趋势密切相关。
-
因此,我们的案例研究也证实了个体能力的绩效变化仍然遵循“Law of the Weakest Link”效应。
-
基于原理的系统提示在增强较弱能力方面尤其有效。
-
“Law of the Weakest Link”效应在个体能力改变后依然存在。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。