NLP-生成模型-2017-Transformer(一):Encoder-Decoder模型【非序列化;并行计算】【O(n²·d),n为序列长度,d为维度】【用正余弦函数进行“绝对位置函数式编码”】

Transformer模型通过自注意力机制解决了RNN的序列依赖问题,实现了并行计算,提升了训练效率。文章详细介绍了Transformer的Encoder-Decoder结构,特别是self-attention层的归一化和scaled机制,以及并行化处理的具体体现。Transformer模型中的位置编码使用正弦函数,解决了全局注意力计算中的位置信息丢失问题,但复杂度与序列长度平方成正比,限制了处理长序列的能力。文章还讨论了Transformer在语言建模中的应用及局限性,如Transformer-XL的提出,以解决长距离依赖和固定长度输入的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《原始论文:Attention Is All You Need》

一、Transformer 概述

在2017年《Attention Is All You Need》论文里第一次提出Transformer之前,常用的序列模型都是基于卷积神经网络或者循环神经网络,表现最好的模型也是基于encoder- decoder框架的基础加上attention机制。

2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNet,RoBERT等模型击败了BERT,但是他们的核心没有变,仍然是:Transformer.

相比之前占领市场的LSTM和GRU模型,Transformer有两个显著的优势:

  1. Transforme
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值