突破残差连接局限!字节豆包团队提出超连接:预训练收敛最快加速80%!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

a45afff1ad7a630426b6e7f789e2c1bd.png

转载自:机器之心

字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。

自从 ResNet 提出后,残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题,使得网络的训练更加稳定。

但是,现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡,无法同时解决。

为此,字节豆包大模型 Foundation 团队于近日提出超连接(Hyper-Connections),针对上述 “跷跷板式” 困境,实现了显著提升。

该方法适用于大规模语言模型(LLMs)的预训练,在面向 Dense 模型和 MoE 模型的实验中,展示了显著性能提升效果,使预训练收敛速度最高可加速 80%。

116b5a4a7c96d55829fd2fe9ab9dc558.png

研究团队还发现,超连接在两个小型的视觉任务中表现同样优异,这表明,该方法在多个领域有广泛的应用前景。

16e27e362aa967c894d211ff65a6d472.png

  • 论文标题:Hyper-Connections

  • 论文链接:https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及,残差连接的两种主要变体 Pre-NormPost-Norm 各自都有其局限性,具体体现如下:

  • Pre-Norm:在每个残差块之前进行归一化操作,可有效减少梯度消失问题。然而,Pre-Norm 在较深网络中容易导致表示崩溃,即深层隐藏表示过于相似,从而削弱了模型学习能力。

  • Post-Norm:在残差块之后进行归一化操作,有助于减少表示崩溃问题,但也重新引入梯度消失问题。在 LLM 中,通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接(Depth-connections)和宽度连接(Width-connections)。

从理论上,这使得模型不仅能够动态调整不同层之间的连接强度,甚至能重新排列网络层次结构,弥补了残差连接在梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。

深度连接与宽度连接

起初,该方法会将网络输入扩展为 n 个隐向量(n 称作 Expansion rate)。之后每一层的输入都会是 n 个隐向量,超连接会对这些隐向量建立以下两类连接:

  • 深度连接(Depth-Connections):这些连接类似于残差连接,只为输入与输出之间的连接分配权重,允许网络学习不同层之间的连接强度。

  • 宽度连接(Width-Connections):这些连接使得每一层多个隐藏向量之间可进行信息交换,从而提高模型表示能力。

dbe494adc22e22073e016f24dea96564.png

静态与动态超连接

超连接可以是静态的,也可以是动态的。

其中,静态超连接(Static Hyper-Connections, SHC)意味着连接权重在训练结束后固定不变。而动态超连接(Dynamic Hyper-Connections, DHC)则对应连接权重可根据输入动态调整。实验表明,动态超连接效果更好。

2. 技术细节

超连接(Hyper-connections)

首先,考虑第 k 层的输入隐藏向量0c963791c4a7d4c1f526484cc9f05265.png,网络的初始输入为a48b1a7b9090a99561dd6798c3303e3e.png,并将其复制 n 次,形成初始的超隐藏矩阵(Hyper Hidden Matrix):

e21921fa1c6c20bd9f7b766885f27ac0.png

这里,n 称为扩展率(Expansion Rate)。在第 k 层,输入是上一层的超隐藏矩阵8e3c10fe919b2407b8c27e7c4b29fb7d.png,即:

80758969fe7217b913256f252390f28a.png

对最后一层的超隐藏矩阵逐行求和,得到所需的隐藏向量,并通过一个投影层输出网络最终的结果(在 Transformer 中即为归一化层和解嵌入层)。

为了简化后续分析的符号表示,作者省略层索引,直接将超隐藏矩阵表示为:

a20c4bc5f50333832a865f72b2317f90.png

超连接可以用一个矩阵来表示,对于扩展率为 n 的情况,超连接矩阵 HC 如下:

de6a9dbd7284579698a346b6d5c2c5e4.png

考虑一层网络ca4ed2a327baff489a38277b3544f5ab.png,它可能是 Transformer 中的 attention 层或者是 FFN 层。超连接的输出 758a34ec0efa1a2a6f2b302e1a42577b.png可以简单地表示为:

389e1d450ae922c80822f67176486219.png

也就是说,用 2b60e57239c67fecd1b12921d4e350a3.png作为权重对输入 96e8c34d047355bfd3e5dac1cf073030.png进行加权求和,得到当前层的输入845be79eee1a2053d5a3684276a5ddb0.png

7e26a5e8fff0036b28305e0d6cd2de08.png

同时,9a10b45a8bcce2f9ce5ef240d128aa28.png用于将 06224f98790564b9c43e50934ee4d7ec.png映射到残差超隐藏矩阵8d5b1a85bea3b7878c6a80cd1242b107.png,表示如下:

ef4a92e4f24335d54484d72e72da5422.png

最终的输出表达式为:

53a885ef6afbb1c4d1c2e4c4a3e3b72a.png

伪代码如下:

11a0a2f0e99f8b0ee9d9f53847630125.png

动态超连接的实现

超连接矩阵 9a03149ee8288afb32532bff17d76341.png的元素可以动态依赖于输入 e6023ff3242efea1cae24f2ecb0ff19a.png,动态超连接的矩阵表示为:

bee08b4634bbc5cb85ae77273c947afd.png

同样,给定层 ccb8f6032ac447ccd2d7c7d93a4127f7.png和输入3ad166a72f091508df0cc99a48828b26.png,可以得到动态超连接的输出:

ce16988e7fce6ef4f088c04b9578dfda.png

在实际操作中,团队结合了静态和动态矩阵来实现动态超连接,动态参数通过线性变换获得。

为了稳定训练过程,团队在线性变换前引入归一化,并在其后应用 tanh 激活函数,通过一个可学习的小因子进行缩放。动态参数的计算公式如下:

39199ce5023e0122c2271ebb786ae309.png

实验表明,动态超连接在语言建模任务中优于静态超连接。

3. 为什么使用超连接(Hyper-Connections)

研究团队认为,残差连接的两种变体,即前归一化(Pre-Norm)和后归一化(Post-Norm),可以被视为不可训练的超连接。

随后,团队引入了顺序 - 并行二象性概念,展示了超连接如何动态优化层的排列以提升网络性能。

残差连接是不可训练的超连接

前归一化和后归一化的残差连接可以表示为以下扩展率为 33034483099919e6a00953f63f455df4.png的超连接矩阵:

ab35fc037433f6689cfd311eaf1ae820.png

其中,5d86468eb916c997d4a7e0a7aab12a02.png和 0a26db7eaa891d014bfb8a2c6f55dc73.png 分别表示神经网络层输入和输出的标准差,d14fe655a09ef6ff2b7d622d93093c45.png表示它们之间的协方差。

对于 Pre-Norm,其超连接矩阵是一个 dea1af3c3f5a846788a77bd32ebc041b.png的矩阵,右下三角部分填充为 1,其余部分为占位符 0。对于 Post-Norm,权重依赖于输入和输出的方差及协方差,形成一个 6a75c4a4578fd4d1d1f58373bf9807bc.png的矩阵。因此,它们的超连接矩阵是不可训练的。

而本工作提出的方法的超连接矩阵是 ea76b9c42eeac52dc5ed78edcf64adf1.png矩阵,且权重是可训练的,甚至可以基于输入进行动态预测。

顺序 - 并行二象性

给定一系列神经网络模块,我们可以将它们顺序排列或并行排列。作者认为,超连接可以学习如何将这些层重新排列,形成顺序和并行配置的混合。

f2a7d1f5e14d3d3232f73aeb4f78544d.png

在不失一般性的情况下,可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习,神经网络将被顺序排列:

af07e0a3b03d16a24fe717ca69ba077c.png

在这种情况下,深度连接退化为残差连接,如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时,神经网络每两层将被并行排列,类似于 Transformer 中的 parallel transformer block 的排列方式,如图 (b) 所示。

7f259921fe4fb17cd395536ef9752f08.png

因此,通过学习不同形式的超连接矩阵,网络层的排列可以超越传统的顺序和并行配置,形成软混合甚至动态排列。对于静态超连接,网络中的层排列在训练后保持固定;而对于动态超连接,排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上,涵盖了 Dense 模型和 MoE 模型。

实验结果表明,使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验

11185390210b66e89d57f4fa37e84f2d.png

只要扩展率 > 1,效果就十分显著,且训练更稳定,消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型,效果也十分亮眼,同时可以看到有超连接的网络训练更稳定。

d43194e48751d74b3110593bec730f46.png

7B 候选激活 1.3B 的 MoE 模型实验

eadefb3b1c4cbe04e3875c53e3215518.png

可以看到,下游指标全涨,在 ARC-Challenge 上甚至涨了 6 个百分点。

0f7bfcd90cf79b2b446ca6fb7460b1d0.png

综上,研究团队介绍了超连接(Hyper-Connections),它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明,超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是,超连接的引入几乎不增加额外的计算开销或参数量,团队认为,该成果具有广泛的应用潜力,可以推广到文音视图模态的不同任务上,包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题,尤其在 LLMs 和多模态方面,期望实现更多突破。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值