Transformer的上下文学习能力是哪来的？

最新推荐文章于 2024-07-08 21:35:13 发布

少喝冰美式

最新推荐文章于 2024-07-08 21:35:13 发布

阅读量1.4k

点赞数 61

文章标签： transformer 学习深度学习大语言模型人工智能计算机技术 ai大模型

本文链接：https://blog.csdn.net/python12222_/article/details/139928348

版权

有理论基础，我们就可以进行深度优化了。

为什么 transformer 性能这么好？它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来？在人工智能领域里，transformer 已成为深度学习中的主导模型，但人们对于它卓越性能的理论基础却一直研究不足。

最近，来自 Google AI、苏黎世联邦理工学院、Google DeepMind 研究人员的新研究尝试为我们揭开谜底。在新研究中，他们对 transformer 进行了逆向工程，寻找到了一些优化方法。论文《Uncovering mesa-optimization algorithms in Transformers》：

论文链接：https://arxiv.org/abs/2309.05858

作者证明，最小化通用自回归损失会产生在 Transformer 的前向传递中运行的基于辅助梯度的优化算法。这种现象最近被称为「mesa 优化（mesa-optimization）」。此外，研究人员发现所得的 mesa 优化算法表现出上下文中的小样本学习能力，与模型规模无关。因此，新的结果对此前大语言模型中出现的小样本学习的原理进行了补充。

研究人员认为：Transformers 的成功基于其在前向传递中实现 mesa 优化算法的架构偏差：(i) 定义内部学习目标，以及 (ii) 对其进行优化。

在这里插入图片描述

该研究的贡献包括：

概括了 von Oswald 等人的理论，并展示了从理论上，Transformers 是如何通过使用基于梯度的方法优化内部构建的目标来自回归预测序列下一个元素的。
通过实验对在简单序列建模任务上训练的 Transformer 进行了逆向工程，并发现强有力的证据表明它们的前向传递实现了两步算法：(i) 早期自注意力层通过分组和复制标记构建内部训练数据集，因此隐式地构建内部训练数据集。定义内部目标函数，(ii) 更深层次优化这些目标以生成预测。
与 LLM 类似，实验表明简单的自回归训练模型也可以成为上下文学习者，而即时调整对于改善 LLM 的上下文学习至关重要，也可以提高特定环境中的表现。
受发现注意力层试图隐式优化内部目标函数的启发，作者引入了 mesa 层，这是一种新型注意力层，可以有效地解决最小二乘优化问题，而不是仅采取单个梯度步骤来实现最优。实验证明单个 mesa 层在简单的顺序任务上优于深度线性和 softmax 自注意力 Transformer，同时提供更多的可解释性。

在初步的语言建模实验后发现，用 mesa 层替换标准的自注意力层获得了有希望的结果，证明了该层具有强大的上下文学习能力。

基于最近人们的工作表明，经过明确训练来解决上下文中的小样本任务的 transformer 可以实现梯度下降（GD）算法。在这里，作者展示了这些结果可以推广到自回归序列建模 —— 这是训练 LLM 的典型方法。

首先分析在简单线性动力学上训练的 transformer，其中每个序列由不同的 W* 生成 - 以防止跨序列记忆。在这个简单的设置中，作者展示了 transformer 创建 mesa 数据集，然后使用预处理的 GD 优化 mesa 目标。

该研究在聚合相邻序列元素的 token 结构上训练深度 transformer。有趣的是，这种简单的预处理会产生极其稀疏的权重矩阵（只有不到 1% 的权重非零），从而产生逆向工程算法。

对于单层线性自注意力，权重对应一个 GD 步骤。对于深度 transformer，可解释性就变得困难。该研究依靠线性探测并检查隐藏激活是否可以预测自回归目标或预处理输入。

有趣的是，两种探测方法的可预测性都会随着网络深度的增加而逐渐提高。这一发现表明模型中隐藏着预处理的 GD。

图 2：对经过训练的线性自注意力层进行逆向工程。

该研究发现，在构建中使用所有自由度时，可以完美地拟合训练层，不仅包括学习的学习率 η，还包括一组学习的初始权重 W_0。重要的是，如图 2 所示，学得的 one-step 算法的性能仍然远远优于单个 mesa 层。

我们可以注意到，在简单的权重设置下，很容易通过基础优化发现，该层可以最优地解决此处研究的任务。该结果证明了硬编码归纳偏差有利于 mesa 优化的优势。

在这里插入图片描述

与单层模型一样，作者在训练模型的权重中看到了清晰的结构。作为第一个逆向工程分析，该研究利用这个结构并构建一个算法（RevAlg-d，其中 d 表示层数），每个层头包含 16 个参数（而不是 3200 个）。作者发现这种压缩但复杂的表达式可以描述经过训练的模型。特别是，它允许以几乎无损的方式在实际 Transformer 和 RevAlg-d 权重之间进行插值。

虽然 RevAlg-d 表达式解释了具有少量自由参数的经过训练的多层 Transformer，但很难将其解释为 mesa 优化算法。因此，作者采用线性回归探测分析（Alain & Bengio，2017；Akyürek et al.，2023）来寻找假设的 mesa 优化算法的特征。

在图 3 所示的深度线性自注意力 Transformer 上，我们可以看到两个探针都可以线性解码，解码性能随着序列长度和网络深度的增加而增加。因此，基础优化发现了一种混合算法，该算法在原始 mesa-objective Lt (W) 的基础上逐层下降，同时改进 mesa 优化问题的条件数。这导致 mesa-objective Lt (W) 快速下降。此外可以看到性能随着深度的增加而显着提高。

因此可以认为自回归 mesa-objective Lt (W) 的快速下降是通过对更好的预处理数据进行逐步（跨层）mesa 优化来实现的。

图 3：对构建的 token 输入进行逆向工程的多层 Transformer 训练。

这表明，如果 transformer 在构建的 token 上进行训练，它就会通过 mesa 优化进行预测。有趣的是，当直接给出序列元素时，transformer 会自行通过对元素进行分组来构造 token，研究团队将其称为「创建 mesa 数据集」。

结论

该研究表明，当在标准自回归目标下针对序列预测任务进行训练时，Transformer 模型能够开发基于梯度的推理算法。因此，在多任务、元学习设置下获得的最新结果也可以转化到传统的自监督 LLM 训练设置中。

此外，该研究还发现学得的自回归推理算法可以在无需重新训练的情况下重新调整用途，以解决有监督的上下文学习任务，从而在单个统一框架内解释结果。

那么，这些与上下文学习（in-context learning）有什么关系呢？该研究认为：在自回归序列任务上训练 transformer 后，它实现了适当的 mesa 优化，因此可以进行少样本（few-shot）上下文学习，而无需任何微调。

该研究假设 LLM 也存在 mesa 优化，从而提高了其上下文学习能力。有趣的是，该研究还观察到，为 LLM 有效调整 prompt 也可以带来上下文学习能力的实质性改进。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

少喝冰美式

关注

61
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Transformer的上下文学习能力是哪来的？

有理论基础，我们就可以进行深度优化了。为什么 transformer 性能这么好？它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来？在人工智能领域里，transformer 已成为深度学习中的主导模型，但人们对于它卓越性能的理论基础却一直研究不足。最近，来自 Google AI、苏黎世联邦理工学院、Google DeepMind 研究人员的新研究尝试为我们揭开谜底。在新研究中，他们对 transformer 进行了逆向工程，寻找到了一些优化方法。
复制链接

扫一扫