CVPR 2021 DELIGHT: DEEP AND LIGHT-WEIGHT TRANSFORMER

动机

基于注意力的transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,通常通过增加隐藏层的尺寸将模型缩放得更宽,或者通过堆叠更多的transformer块将模型缩放得更深。例如,T5使用65K的维度,GPT-3使用96个transformer块。然而,这样的缩放显著增加了网络参数的数量(例如,T5和GPT-3分别具有110亿和1750亿个参数),并使学习复杂化,即这些模型要么需要非常大的训练语料库,要么需要仔细的正则化。本论文提出了一种新的参数有效的基于注意力的体系结构,该体系结构可以很容易地扩展到宽和深。

方法
简介

DeLighT transformer结构是对Vaswani等人的transformer结构的扩展。并以显著较少的参数和操作展现出类似或更好的性能。DeLighT的核心是使用Mehta等人的群组线性变换的DeLighT变换。采用扩展-缩小策略,有效地改变DeLighT块的宽度和深度。由于GLT本质上是局部的,DeLighT变换使用特征shuffling,其类似于卷积网络中的通道shuffling,以在不同组之间共享信息。这种广泛和深入的表示有助于用单头注意力和轻量级前馈层取代transformer中的多头注意力和前馈层,从而减少总的网络参数和操作。重要的是,与transformer不同,DeLighT变换将深度和宽度与输入大小解耦,允许通过在输入附近使用较浅和较窄的DeLighT块,在输出附近使用较深和较宽的DeLighT块,在块之间更有效地分配参数。

DelighT

标准transformer块包括多头注意力,它使用查询-键-值分解来建模序列token之间的关系,以及前馈网络(FFN)来学习更广泛的表示。多头注意力通过对输入应用三个投影来获得查询Q、键K和值V,每个投影由h个线性层(或头)组成,这些线性层(或头)将dm维输入映射到dh维空间,其中dh=dm/h是头的维度。这个FFN由两个线性层组成,其中第一个层将维度从dm扩展到df,其次,将df的维度降为dm的维度。transformer块的深度为4,包括(1

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值