ACL 2024 | SMU、NUS提出参数高效微调增强剂，显著提升大语言模型性能

最新推荐文章于 2024-07-10 08:41:33 发布

PaperWeekly

最新推荐文章于 2024-07-10 08:41:33 发布

阅读量606

点赞数 16

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/139975038

版权

©PaperWeekly 原创 · 作者 | Zhihao Wen

单位 | 新加坡管理大学、新加坡国立大学

研究方向 | 大语言模型的参数高效微调

论文标题：

SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

论文地址：

https://arxiv.org/pdf/2402.11896

代码链接：

https://github.com/Jaygagaga/SIBO

简介

基于 Transformer 架构的大型语言模型的深度（例如，BERT-large 有 24 层，LLaMA-7B 有 32 层，LLaMA 65B 有 80 层）导致了过平滑（Over-smoothing）问题，影响性能和可扩展性，而全模型微调需要大量资源。为解决这些问题，参数高效微调技术 PEFT（如 Adapter 和 LoRA）被提出，但没有解决过平滑。

本文由来自新加坡管理大学和新加坡国立大学的作者提出了 SIBO，一种简单增强参数高效微调（PEFT）的方法，用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差，减少了 Transformer 模型中的过平滑问题。实验表明，SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。

前言

在讲我们的方法之前，先介绍两种流行的 PEFT 技术：适配器和基于重参数化的方法。适配器分为并行和串行，本文关注经典串行适配器（Adapter），它通过下投影和上投影操作添加学习模块。基于重参数化的方法，如 LoRA，使用低秩策略修改网络权重，减少参数数量而不影响性能。

方法

3.1 Over-smoothing in PEFT

源于图神经网络的术语过平滑（Over-smoothing）指的是由于在连续的聚合层中重复使用相同的邻接矩阵，导致节点表示的同质性增加，从而导致性能下降。

虽然前人已经提出了几种策略来缓解过度平滑，但它们并不是为 PEFT 技术设计的，因此在大型语言模型中不太实用。特别是，我们还通过定量分析观察到在广泛采用的 PEFT 技术（包括 Adapters 和 LoRA）中，尤其是在深层中，也存在过度平滑现象。

在我们的分析中，通过评估同一语句中 token 之间的相似性，即 token 间余弦相似性，可以检测到过度平滑现象。给定一个包含个 toke n的句子，表示为，其 token 间余弦相似性计算如下：

其中是欧几里得范数。如下图 1 和图 2 所示，在 Adapter 和 LoRA 中，随着骨干语言模型层深的增加，token 间相似性的一致增加被观察到。因此，经过 PEFT 技术适配的预训练语言模型中也存在过度平滑问题。因此，有必要设计一个通用框架来缓解 PEFT 方法的过度平滑，同时保持其效率。

▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of the corpora in the GLUE benchmark (Wang et al., 2018), with BERT-large as the backbone.

▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of MAWPS (Koncel-Kedziorski et al.,2016) and SVAMP (Patel et al., 2021), with LLaMA-13B as the backbone.

3.2 Initial residual integration

为了实现 PEFT（参数高效微调）的通用即插即用增强，我们从 PEFT 模块的输入开始，在预训练模型的每一层的输入中注入一个初始残差。

令作为预训练模型输入的初始 token 表示为。从整合一个初始残差可以保证每个 token 的最终表示至少保留输入层信息的部分。在涉及多个层时，这里的是一个关键因素。

实际上，我们将视为一个超参数，并将其设置为一个合理的值，例如 0.2，确保最终的 token 表示包含输入 token 特征的实质部分，从而减少整个层的过度平滑现象。接下来，我们说明我们提出的 SIBO 框架如何应用于两种最流行的 PEFT 技术：Adapter 和 LoRA。

▲ Proposed framework SIBO, applying to two popular PEFT methods: (a) Adapter, and (b) LoRA.

Adapter-SIBO

在 Adapter 中实现初始残差注入是直观的。如上图（a）所示，SIBO 在每个 Transformer 层的 Adapter 入口处（即从前一层输出并输入 Adapter 的隐藏状态）将初始 token 表示添加到隐藏状态中。该过程通过以下基本的向量加法操作执行。

其中是用于控制初始残差强度的超参数。

LoRA-SIBO

在每个 Transformer 层的每个 LoRA 模块中，其更新的输入仅为前一层的隐藏状态，由低秩矩阵近似表示。在 LoRA-SIBO 中，如上图（b）所示，我们对的输入进行了修改，使其成为和的组合，如下式所示，

实验

▲ 不同 PEFT 方法在算术推理任务中 LLMs 的表现，使用 GPT-3.5 的零样本 CoT 作为参考点。∗ 表示结果来自先前工作，我们采用了完全相同的实验设置和评估。改进是相对于没有 SIBO 的对应方法计算的。

▲ GPT-J（6B）在常识推理任务中使用不同 PEFT 方法的表现。∗ 表示结果来自先前的工作，其中采用了完全相同的实验设置和评估。

▲ BERT-large 在 GLUE 基准测试中使用不同 PEFT 方法的表现。∗ 表示结果来自先前的工作，其中采用了完全相同的实验设置和评估。我们报告了三次不同运行中表现的平均值（及标准差）。

结语

本文提出了 SIBO，一种简单增强参数高效微调（PEFT）的方法，用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差，减少了 Transformer 模型中的过平滑（Over-smoothing）问题，从而提高下游任务的性能。实验表明，SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

关注

16
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
ACL 2024 | SMU、NUS提出参数高效微调增强剂，显著提升大语言模型性能

©PaperWeekly 原创 ·作者 | Zhihao Wen单位 | 新加坡管理大学、新加坡国立大学研究方向 | 大语言模型的参数高效微调论文标题：SIBO:A Simple Booster for Parameter-Efficient Fine-Tuning论文地址：https://arxiv.org/pdf/2402.11896代码链接：https://github.com/Jayg...
复制链接

扫一扫