Llama重磅发布CrossEval——60页论文阐述LLM 多领域能力的「木桶原理」

大靠山

于 2024-10-15 20:29:59 发布

阅读量434

点赞数 14

文章标签： llama 人工智能学习深度学习 dubbo java

本文链接：https://blog.csdn.net/m0_59235245/article/details/142963763

版权

10 月 1 日 Meta Llama 团队重磅发布了评估 LLM 多领域能力的 CrossEval，总结出 Law of the Weakest Link，公布了最新的技术报告共 60 页，来和小编一探究竟吧！

在这个项目中，我们逐步系统地探索了大语言模型 Cross 能力的概念。

大型语言模型的开发和评估主要集中在单项能力上。通常，开发人员根据不同的能力构建专门的数据集，然后通过混合这些数据源来训练模型。然而，这忽视了现实世界任务中经常需要的不同类型专业知识的多种能力的交叉，我们将其称为 Cross 能力。

什么是 Cross 能力?

例子:

考虑一个用户提示，这样的任务需要将工具使用(web浏览)与分析推理集成在一起。
当开发人员提供HTML和JavaScript代码并提出要求时，模型必须将长上下文理解与编码专业知识结合起来。

定义

我们将这些场景定义为交叉能力——跨不同类型专业知识的多种不同能力的交叉，以解决复杂的现实世界任务。

我们首先确定 LLM 的七个核心单项能力，然后将它们配对形成七个常见Cross 能力，每个能力都由人工构建的分类法支持。

Individual Capabilities: 单项能力:
English
Reasoning
Coding
Image Recognition
Tool Use
Long Context
Spanish
Cross Capabilities: 交叉功能:
Coding & Reasoning
Image Recognition & Reasoning
Tool Use & Coding
Tool Use & Reasoning
Long Context & Coding
Spanish & Reasoning
Spanish & Image Recognition

分类:

如图所示，这些分类法遵循分层设计:根节点表示单个或交叉能力，接下来的两层(第1层和第2层类别)将这些能力分解为越来越具体的任务。
该框架明确区分了依赖于单个能力的任务和需要集成多种能力的任务，允许跨各种场景对 LLM 进行全面评估。

为了对 LLM 的交叉能力进行基准测试，我们引入了CrossEval基准，包括:

Prompts: 1400个专家标注的 Prompt，每个功能有100个Prompts
Category: 根据分类法按级别1和2对每个提示进行分类
Difficulty Level: 难度等级:10%简单，30%中等，60%困难
参考示例:
Responses: 每个提示3个模型响应
Expert reviews: 2个人工评分并对每个模型响应进行解释
共有4200个模型响应和8400个专家评论

Prompting LLMs for Evaluation
Multi-reference-based prompting: 当使用LLM-as-a-Judge时，最多提供两个参考回答以及它们的评级和解释作为上下文。例如，在评估第一个响应时，LLM可以给出其他响应的四个评级。
**Point-deduction-based prompting:**LLM-as-a-Judge范式倾向于更长的、更结构化的回答，这导致了虚高的评估分数。为了解决这个问题，不是直接分配分数，而是委托llm总结参考示例和评估中的响应中的问题，并指定扣分。
Correlations between LLM ratings and human judgments:
每个LLM在评估不同能力方面都表现出特定的优势。
通过我们的参考例子和提示方法，LLM评估者与专家标注者对交叉值的判断的皮尔逊相关系数达到了近0.7。

在这里插入图片描述

关于参考样本数量的消融研究:
如图所示，一个明显的趋势出现了:随着参考示例数量的增加，所有三个相关性指标都有明显的提高。
值得注意的是，在评估基准中的新模型响应时，我们提供了所有三个参考示例，这可能会导致更高的相关性。

在这里插入图片描述

表中提供了来自5个模型族的17个llm的完整结果。我们的实验揭示了几个关键发现:

CrossEval有效地区分了高级模型:
CrossEval基准成功区分了最先进的 LLM。
例如，四种Claude模型变体在能力中取得了越来越高的分数:56.81,62.88,66.22和71.54。
LLM 在交叉能力方面表现出“最弱环节定律”效应:
在交叉能力评价中，若某项能力的绝对得分差值超过3分，则将其中一项能力定义为较强，另一项能力定义为较弱。
在58种存在这种差异的跨能力场景中，38种场景的性能低于两种单独能力(红色背景)，20种场景的性能介于两者之间，但更接近较弱的能力(蓝色背景)。
值得注意的是，没有交叉能力得分接近或超过更强的单项能力。
工具调用是LLMs目前最具挑战性的能力:
提示集包括涉及网页浏览和代码解释的任务，Llama 3.1是目前唯一同时支持这两种模型的模型族。
然而，这些能力的得分明显低于其他能力的得分，这表明需要改进的关键领域。
LLM 在跨能力任务中表现不佳:
尽管我们努力在单项和跨能力任务中保持一致的难度水平，LLM 通常在需要多种能力的任务上表现较差。
在所有模型中，个体能力的平均得分为65.72，而交叉能力的平均得分为58.67，显示出显著的性能差距。

在这里插入图片描述

“Law of the Weakest Link”效应与评估者无关:
“Law of the Weakest Link” 适用于任何评估者。使用GPT-4o时，密度峰值略低于较弱的能力，而Claude 3.5 Sonnet在较弱的能力上显示略有峰值。然而，在这两种情况下，性能都紧密围绕较弱的能力聚集。
“Law of the Weakest Link” 效应表明，个体能力的缺陷会在很大程度上限制任何涉及该能力的跨能力任务的性能。
CrossEval基准为识别LLM弱点提供了基础，但需要进一步研究，以更全面地诊断和解决这些缺陷，而不影响其他能力。

Case Study on Individual-Capability Alterations

除了评估crossseval上LLM的个体和交叉能力之间的关系外，还探讨了关键的后续问题:当我们调整特定能力的性能时，这如何影响交叉能力性能?为在llm中探索这一点，本文提出一种旨在调节llm的特定能力的提示方法。本文提出涉及两个llm的案例研究，以说明这些改变的影响。

基于原理的系统提示:
为了可靠地探索改变单项能力的影响，我们的目标是在不显著影响他人的情况下增强特定的能力。
所提出的解决方案是一种基于原理的方法，不断改进系统提示以增强LLMs的特定能力。它建立在CrossEval数据集的基础上，有选择地提高单项能力。
研究单项能力改变的影响:
在跨能力场景中，更改较弱的能力会对整体性能产生显著影响，而更改较强的能力只会导致较小的调整。
在两个模型检查的18个交叉能力得分中，我们观察到一单项的能力提高，而另一单项的能力下降。值得注意的是，在90%的情况下，交叉能力性能的变化与较弱能力的变化趋势密切相关。
因此，我们的案例研究也证实了个体能力的绩效变化仍然遵循“Law of the Weakest Link”效应。
基于原理的系统提示在增强较弱能力方面尤其有效。
“Law of the Weakest Link”效应在个体能力改变后依然存在。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述