（九十四）：GLU Variants Improve Transformer

Laura_Wangzx

已于 2023-06-19 20:08:40 修改

阅读量304

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签： transformer 深度学习人工智能

于 2022-05-02 19:58:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37486501/article/details/124509737

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 197 订阅 ¥19.90 ¥99.00

订阅专栏

该博客探讨了门控线性单元（GLU）及其变体如何改进Transformer模型的性能。GLU由两个线性投影和sigmoid激活的组件级乘组成。作者测试了不同非线性函数替换sigmoid的效果，并在Text-to-Text Transfer Transformer（T5）上进行了实验，发现在预训练和微调阶段，某些GLU变体如GEGLU和SwiGLU能提高模型的困惑度和下游任务的表现。

摘要由CSDN通过智能技术生成

（九十四）：GLU Variants Improve Transformer

Abstract
1. Introduction
2. Gated Linear Units (GLU) and Variants
3. Experiments on Text-to-Text Transfer Transformer (T5)
4. Conclusions

出处：CoRR abs/2002.05202 (2020)
代码：https://github.com/labmlai/annotated_deep_learning_paper_implementations
题目：GLU变体改进变压器
主要内容：

Abstract

门控线性单元[Dauphin等人，2016]由两个线性投影的组件级乘积组成，其中一个首先通过一个sigmoid函数。GLU的变化是可能的，通过使用不同的非线性(甚至线性)函数来代替sigmoid函数。我们在Transformer [Vaswani等人，2017]序列对序列模型的前馈子层中测试了这些变体，发现其中一些比通常使用的ReLU或GELU激活产生了质量改善。

1. Introduction

Transformer [Vaswani等人，2017]序列对序列模型在多头注意和它所称的“位置前馈网络”(FFN)之间交替。
FFN取一个向量x(序列中特定位置的隐藏表示)，并将其通过两个已知的线性变换(由矩阵W1和W2以及偏置向量b1和b2表示)。一个修正线性(ReLU) [Glorot等人，2011]激活函数应用于两个线性变换之间。
请添加图片描述
遵循T5代码基[Raffel等人，2019]1，我们使用一个没有bias的版本:

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（九十四）：GLU Variants Improve Transformer

（九十三）：GLU Variants Improve TransformerAbstract1. Introduction2. Gated Linear Units (GLU) and Variants3. Experiments on Text-to-Text Transfer Transformer (T5)3.1 Model Architecture3.2 Pre-Training and Perplexity Results3.3 Fine-Tuning4. Conclusions出处：CoRR
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laura_Wangzx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。