(九十四):GLU Variants Improve Transformer

该博客探讨了门控线性单元(GLU)及其变体如何改进Transformer模型的性能。GLU由两个线性投影和sigmoid激活的组件级乘组成。作者测试了不同非线性函数替换sigmoid的效果,并在Text-to-Text Transfer Transformer(T5)上进行了实验,发现在预训练和微调阶段,某些GLU变体如GEGLU和SwiGLU能提高模型的困惑度和下游任务的表现。
摘要由CSDN通过智能技术生成

  • 出处:CoRR abs/2002.05202 (2020)
  • 代码:https://github.com/labmlai/annotated_deep_learning_paper_implementations
  • 题目:GLU变体改进变压器
  • 主要内容:

Abstract

门控线性单元[Dauphin等人,2016]由两个线性投影的组件级乘积组成,其中一个首先通过一个sigmoid函数。GLU的变化是可能的,通过使用不同的非线性(甚至线性)函数来代替sigmoid函数。我们在Transformer [Vaswani等人,2017]序列对序列模型的前馈子层中测试了这些变体,发现其中一些比通常使用的ReLU或GELU激活产生了质量改善。

1. Introduction

Transformer [Vaswani等人,2017]序列对序列模型在多头注意和它所称的“位置前馈网络”(FFN)之间交替。
FFN取一个向量x(序列中特定位置的隐藏表示),并将其通过两个已知的线性变换(由矩阵W1和W2以及偏置向量b1和b2表示)。一个修正线性(ReLU) [Glorot等人,2011]激活函数应用于两个线性变换之间。
请添加图片描述
遵循T5代码基[Raffel等人,2019]1,我们使用一个没有bias的版本:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值