NLP-生成模型-2017-Transformer（一）：Encoder-Decoder模型【非序列化；并行计算】【O(n²·d)，n为序列长度，d为维度】【用正余弦函数进行“绝对位置函数式编码”】

u013250861

已于 2024-03-10 13:15:28 修改

阅读量2.2k

点赞数 1

分类专栏： # LLM/Transformer 文章标签：人工智能机器学习深度学习 Transformer Self-Attention 1024程序员节

于 2020-12-18 23:07:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/111398112

版权

LLM/Transformer 专栏收录该内容

48 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Transformer模型通过自注意力机制解决了RNN的序列依赖问题，实现了并行计算，提升了训练效率。文章详细介绍了Transformer的Encoder-Decoder结构，特别是self-attention层的归一化和scaled机制，以及并行化处理的具体体现。Transformer模型中的位置编码使用正弦函数，解决了全局注意力计算中的位置信息丢失问题，但复杂度与序列长度平方成正比，限制了处理长序列的能力。文章还讨论了Transformer在语言建模中的应用及局限性，如Transformer-XL的提出，以解决长距离依赖和固定长度输入的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《原始论文：Attention Is All You Need》

一、Transformer 概述

在2017年《Attention Is All You Need》论文里第一次提出Transformer之前，常用的序列模型都是基于卷积神经网络或者循环神经网络，表现最好的模型也是基于encoder- decoder框架的基础加上attention机制。

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNet，RoBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer.

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势:

Transforme

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。