LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

Ming_Chens

已于 2024-08-06 20:08:14 修改

阅读量969

点赞数 27

分类专栏：多模态大模型文章标签： llama 语言模型人工智能

于 2024-08-06 19:51:26 首次发布

本文链接：https://blog.csdn.net/s_m_c/article/details/140964534

版权

多模态大模型专栏收录该内容

26 篇文章 0 订阅

订阅专栏

发表时间：14 Jun 2023

论文链接：https://arxiv.org/pdf/2303.16199

作者单位：Shanghai Artificial Intelligence Laboratory

Motivation：最近，指令跟踪模型取得了重大进展，例如 ChatGPT [2] 和 GPT-3.5 (text-davinci-003) [4]。按照自然语言的说明，它们可以以会话方式生成专业和上下文响应。然而，由于闭源限制和高开发成本，指令模型的进一步普及在很大程度上受到了阻碍。尽管 Alpaca 的有效性，但大规模 LLAMA 的完整微调仍然耗时、计算密集型、多模态不受支持和繁琐，无法转移到不同的下游场景。

解决方法：我们提出了 LLAMA-Adapter，这是一种轻量级的自适应方法，可以有效地将 LLAMA 微调为指令跟踪模型。使用 52K self-instruct demonstrations，LLaMA-Adapter 在冻结的 LLAMA 7B 模型上仅引入 1.2M 可学习参数，在 8 个 A100 GPU 上进行微调的成本不到一小时。

本文提出 LLaMA-Adapter，一种高效的微调方法，将 LLaMA 调整为指令跟随模型。对于 llama7b 模型来说，可训练参数缩小到 1.2M，只需要 1 小时即可完成 52K 数据微调 (基于 8xA100 训练)，比 Alpaca 快 3 倍
具体来说，在 LLaMA 的更深层的 transformer 层中，将一组可学习的自适应提示作为前缀附加到输入指令 token 中。这些提示学习将新指令（条件）自适应地注入 LLaMA.
为了避免在早期训练阶段适应提示中的噪声，将插入层的 attention 机制修改为零初始 attention，并使用可学习的门控因子。通过零向量初始化，门控可以首先保留 LLaMA 中的原始知识，并在训练过程中逐步引入指令信号.
这样做的一个好处和 LoRA 类似，即对于不同的场景可以在基础的 llama 模型 (7B) 上插入不同的插件小模型（1.2 M），用于处理不同场景任务，而不用对每个场景任务都准备一个 7B 的大模型.
支持多模态输入：支持方式就是简单将图片的 tokens 加到 adaption prompts 中，在 ScienceQA 基准测试中表现出色。

实现方式：

Learnable Adaption Prompts:

接，表达式为：

这样Pl内部学习到的指令知识可以有效地引导Tl生成上下文响应（这一步的操作与 Visual Prompt Tuning 的方式一模一样）。

Zero-init Attention:

如果适应提示是随机初始化的，可能会在训练开始时对词 token 带来干扰，不利于调优的稳定性和有效性。考虑到这一点，修改了最后 L 个 transformer 层的传统注意机制为零初始注意. （这个门控机制是在哪个维度上门控？是在加的提示向量上进行门控（原文中K个），用于筛选加上的提示向量。）

Multi-modal Reasoning：

LLaMA-Adapter 不局限于文本指令，能够根据其他模态输入来回答问题，为语言模型增加了丰富的跨模态信息。

对于图片输入，使用 CLIP 提取多尺度的全局特征，然后将这些多尺度特征 concat 起来，经过一个投影层得到全局的信息表征。

Ip∈R1×C 是和 adapter prompt 维度一样的全局图片特征表示，然后将该特征 repeat 后与 adapter prompt 相加得到多模态特征（也是常规的多模态特征融合的操作）。

实验：Instruction-following Evaluation, Multi-modal Evaluation, Zero-initialized Attention for other Large Models(除了指令跟随模型外，我们的零初始化注意力可以推广到其他视觉和语言模型，用于参数高效的微调。对于视觉模型，我们利用我们的方法微调预训练的 ViT进行下游图像分类，在各种图像分布上获得 VTAB-1k基准上的卓越性能。)

结论：