动机
基于注意力的transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,通常通过增加隐藏层的尺寸将模型缩放得更宽,或者通过堆叠更多的transformer块将模型缩放得更深。例如,T5使用65K的维度,GPT-3使用96个transformer块。然而,这样的缩放显著增加了网络参数的数量(例如,T5和GPT-3分别具有110亿和1750亿个参数),并使学习复杂化,即这些模型要么需要非常大的训练语料库,要么需要仔细的正则化。本论文提出了一种新的参数有效的基于注意力的体系结构,该体系结构可以很容易地扩展到宽和深。
方法
简介
DeLighT transformer结构是对Vaswani等人的transformer结构的扩展。并以显著较少的参数和操作展现出类似或更好的性能。DeLighT的核心是使用Mehta等人的群组线性变换的DeLighT变换。采用扩展-缩小策略,有效地改变DeLighT块的宽度和深度。由于GLT本质上是局部的,DeLighT变换使用特征shuffling,其类似于卷积网络中的通道shuffling,以在不同组之间共享信息。这种广泛和深入的表示有助于用单头注意力和轻量级前馈层取代transformer中的多头注意力和前馈层,从而减少总的网络参数和操作。重要的是,与transformer不同,DeLighT变换将深度和宽度与输入大小解耦,允许通过在输入附近使用较浅和较窄的DeLighT块,在输出附近使用较深和较宽的DeLighT块,在块之间更有效地分配参数。
DelighT
标准transformer块包括多头注意力,它使用查询-键-值分解来建模序列token之间的关系,以及前馈网络(FFN)来学习更广泛的表示。多头注意力通过对输入应用三个投影来获得查询Q、键K和值V,每个投影由h个线性层(或头)组成,这些线性层(或头)将dm维输入映射到dh维空间,其中dh=dm/h是头的维度。这个FFN由两个线性层组成,其中第一个层将维度从dm扩展到df,其次,将df的维度降为dm的维度。transformer块的深度为4,包括(1