【论文解析】Transformer浅析（Attention is All You Need）

最新推荐文章于 2025-03-16 18:26:12 发布

guofei_fly

最新推荐文章于 2025-03-16 18:26:12 发布

阅读量2.3k

点赞数 4

分类专栏：自然语言处理文章标签： T Transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guofei_fly/article/details/105601979

版权

Attention is All You Need作为NLPer必须反复阅读和深刻理解的经典论文，提出了Transformer这样一个效果优异的特征抽取器，被广泛应用于后续的预训练模型。

网络上关于Transformer的优秀解读很多，本文仅记录了本人的一些思考和理解。

一、模型架构解读

Transformer是基于经典的机器翻译Seq2Seq框架提出的，区别在于Encoder和Decoder中大量使用attention机制提取信息。
在这里插入图片描述

1.1 Encoder

Encoder的底层为类似于词向量的embedding层，然后接6层Multi-Head Attention和Position Forward的堆叠。

Embedding

在Transformer中，embedding包括两部分：预训练的词向量，以及表示token位置信息的position embedding。因为self-attention机制本身并不考虑词序的影响，因此必须引入position embedding。论文对比了预定义的position embedding和学习得到的embedding值，发现效果相当。为了方便，以及长文本的外插，采用简单的三角函数的表达形式：
$PE_{(pos,2i)}=\sin(pos/10000^{2i/d_{model}});PE_{(pos,2i+1)}=\cos(pos/10000^{ {2i+1}/d_{model}})$ 在这里插入图片描述 + Multi-Head self Attention

通过self-attention的方式得到输入sequence中各token间的信息，同时采用多头机制保证了子空间特征抽取的多样性。

每层的每个Head内均有待训练 $W^Q,W^K,W^V$ 矩阵用于将embedding转化为对应的query，key和value（详见浅析NLP中的Attention技术），通过矩阵运算保证了计算速度： $Attention(Q,K,V)={softmax}(\frac{QK^T}{\sqrt{d_k}})V$

Position Forward

Position Forward是一个简单的2层全连接前向网络：

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。