CVPR 2021 DELIGHT: DEEP AND LIGHT-WEIGHT TRANSFORMER

最新推荐文章于 2022-04-22 17:26:14 发布

smile909

最新推荐文章于 2022-04-22 17:26:14 发布

阅读量834

点赞数

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115561480

版权

动机

基于注意力的transformer网络被广泛用于序列建模任务，包括语言建模和机器翻译。为了提高性能，通常通过增加隐藏层的尺寸将模型缩放得更宽，或者通过堆叠更多的transformer块将模型缩放得更深。例如，T5使用65K的维度，GPT-3使用96个transformer块。然而，这样的缩放显著增加了网络参数的数量（例如，T5和GPT-3分别具有110亿和1750亿个参数），并使学习复杂化，即这些模型要么需要非常大的训练语料库，要么需要仔细的正则化。本论文提出了一种新的参数有效的基于注意力的体系结构，该体系结构可以很容易地扩展到宽和深。

方法

简介

DeLighT transformer结构是对Vaswani等人的transformer结构的扩展。并以显著较少的参数和操作展现出类似或更好的性能。DeLighT的核心是使用Mehta等人的群组线性变换的DeLighT变换。采用扩展-缩小策略，有效地改变DeLighT块的宽度和深度。由于GLT本质上是局部的，DeLighT变换使用特征shuffling，其类似于卷积网络中的通道shuffling，以在不同组之间共享信息。这种广泛和深入的表示有助于用单头注意力和轻量级前馈层取代transformer中的多头注意力和前馈层，从而减少总的网络参数和操作。重要的是，与transformer不同，DeLighT变换将深度和宽度与输入大小解耦，允许通过在输入附近使用较浅和较窄的DeLighT块，在输出附近使用较深和较宽的DeLighT块，在块之间更有效地分配参数。

DelighT

标准transformer块包括多头注意力，它使用查询-键-值分解来建模序列token之间的关系，以及前馈网络(FFN)来学习更广泛的表示。多头注意力通过对输入应用三个投影来获得查询Q、键K和值V，每个投影由h个线性层（或头）组成，这些线性层（或头）将d_m维输入映射到d_h维空间，其中d_h=d_m/h是头的维度。这个FFN由两个线性层组成，其中第一个层将维度从d_m扩展到d_f，其次，将d_f的维度降为d_m的维度。transformer块的深度为4，包括（1

最低0.47元/天解锁文章

smile909

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
CVPR 2021 DELIGHT: DEEP AND LIGHT-WEIGHT TRANSFORMER

动机基于注意力的transformer网络被广泛用于序列建模任务，包括语言建模和机器翻译。为了提高性能，通常通过增加隐藏层的尺寸将模型缩放得更宽，或者通过堆叠更多的transformer块将模型缩放得更深。例如，T5使用65K的维度，GPT-3使用96个transformer块。然而，这样的缩放显著增加了网络参数的数量（例如，T5和GPT-3分别具有110亿和1750亿个参数），并使学习复杂化，即这些模型要么需要非常大的训练语料库，要么需要仔细的正则化。本论文提出了一种新的参数有效的基于注意力的体系结构，
复制链接

扫一扫