Transformer

m0_67708072

已于 2023-08-18 01:10:29 修改

阅读量123

点赞数

分类专栏：跟李沐学AI 文章标签： transformer 深度学习人工智能

于 2023-04-02 03:07:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67708072/article/details/129903874

版权

跟李沐学AI 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

Transformer架构

纯基于self-attention和普通attention的架构，类比加了attention的seq2seq来看，没有RNN。Multi-head attention是自注意力。PositionwiseFFN全连接。embedding后得到n*d的矩阵（n个token，每个token向量长度d）

Transformer架构

多头注意力 Multi-head attention

有点像卷积里的对输出通道，但这里已经有多通道，输出的n*d（n序列长度，d每个token的长度），d相当于通道。那就只能“多头”。key,value,query是长为d的向量。

多头注意力使用h个独立的注意力池化。上图有2个head，通常query/key/value经过全连接层维度变小，concat是在特征维度上concat。

数学上看多头注意力

带有掩码的多头注意力 Masked multi-head attention

attention没有时间信息，第i个输出可以看到后面的信息，这不合理，这在编码没关系，但解码不应该事先看到本身以及之后的元素，所以用掩码（valid length来做）。具体：

基于位置的前馈网络 PositionwiseFFN

b：batch size n：序列长度 d：每个token的维度

基于位置的前馈网络对每一个位置（也就是每一个token）使用同样的全连接，这就是称前馈网络是基于位置的原因。

为什么要将输入形状由(b,n,d)变成(bn,d)?因为一个模型应该要可以处理任意长度的序列，所以n不可以作为一个单独维度，它想对每个序列中的每个token（长度d）作用一个全连接。这里两个全连接层相当于两个1x1卷积层。

层归一化 Add & norm

residual connection：便于训练更深的网络

layer normalization：为了更加训练更容易更稳定，层归一化对每个样本的n*k个元素归一化（方差变1，均值变0）。

编码器到解码器的信息传递

图中出现三个attention，红圈圈起来的是一般的attention，key,value来自编码器的输出；另外两个都是self-attention，

预测

t时刻预测的就是第t+1个输出。

总结

Transformer是一个纯使用注意力机制的编码器-解码器。

编码器和解码器都有n个transformer块。

每个块内：有基于位置的前馈网络FFN全连接层（1x1卷积），多头注意力，有自注意力也有一般的attention，残差连接让网络更深，层归一化，位置编码。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer

Transformer是一个纯使用注意力机制的编码器-解码器。编码器和解码器都有n个transformer块。每个块内：有基于位置的前馈网络FFN全连接层（1x1卷积），多头注意力，有自注意力也有一般的attention，残差连接让网络更深，层归一化，位置编码。
复制链接

扫一扫

专栏目录

博客等级

码龄2年

24
原创

74
点赞

63
收藏

51
粉丝

关注

私信

热门文章

分类专栏

最新评论

关于用None拓展维度
CSDN-Ada助手: 亲爱的作者，恭喜你发布了关于用None拓展维度的博客！你的创作真的很有深度，并且能够为读者带来新的思考。在下一篇博客中，也许你可以尝试结合实际案例，或者分享一些个人的经验和见解，这样可以更好地吸引读者。期待你更多的精彩作品！加油！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。