transformer

熙攘人潮当看不见

于 2024-05-17 09:53:25 发布

阅读量545

点赞数 16

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52382661/article/details/138822741

版权

encoder and decoder

注意力机制

多头注意力机制

自注意力机制

编码器解码器架构

编码器：输入一系列的词n个变成向量z，向量每个元素表示序列的一个词

解码器：得到z，把它变成序列m，得到的长度可以不一样

基本的结构图是这样的。左边编码器右边解码器

每一个作为一个层

N就是有多少个这种层

编码器

在transfomer中，N编码器N=6，特征层数d=512

layerNormalization

对每个样本进行变成均值为1，方差为0

BN是对每个特征进行均值为1，方差为0

解码器

有一个带掩码的多头注意力（masked），保证t时刻不会看到t时刻以后的输入

注意力机制

注意力机制是这个

简单理解就是对输入进行一个加权和。

n个词n个向量，每个长度为d，那么attention之后，也是n个d长度的向量（其实就是与其他每个词加权和）

理解加权和：

输入的q、k、v是query（每个词序列）、key值、value，但是其实就是输入的n维d向量，只是作为不同的效果

一个query对应每个时刻的序列，与key（每个时刻的特征）做内积，得到这样的矩阵，然后再每个除以根号dk，然后进行softmax之后（得到每个特征在该时刻的权重）再乘以V，就得到我们输出，每一行就是一个向量。

可以发现，其实query向量，第t时刻对应Qt。Qt会与Key每个值做运算，得到输出的一行

而我们要的是，0~t-1时刻起权重效果，而t之后都不起效果，所以加入了mask，做了一件事，让t时刻之后都乘以了非常小的负数，这样softmax之后t之后权重就变0，t之前继续起效果。

multi -head Attention 多头

把query、key、value都输入进来

对于每一个q，都要和其他k与v计算，最后拼接起来。那么用多个注意力机制，互相进行独立运算。防止过拟合

网络结构中的

如果输入是n个文字的巨子，那么编码器解码器的输入就是，n个长为d向量

编码器的：输入q、k、v（其实就是个长为d向量分成3份输入进去，每份作不同的效果）经过多注意力机制，得到输出是n个输出。其实就是当前q和其他q之间的匹配度。

解码器的mask：与编码器相同，但是进行mask，也就是第t个q只能算t之前的匹配度，不能算之后的。

最后一个注意力，这里的输入是编码器的n维向量和解码器的n维向量，（作为q、k、v不管，因为他们其实也是向量本身），最后计算编码器和解码器对应的匹配度

position-wise feed forward

就是MLP，n个词，每个词进行一次MLP

注意力机制得到的d=512，也就是每个q对应的x是512维。W1把512升到2048，W2再降回512。

Embeddings and Softmax

Embeddings把输入的词变成n个d的向量

positional Encoding

attention只会算词之间的关系，不会管顺序，如果一句话顺序打乱，结果也是一样

所以positional Encoding是时序信息

实验

熙攘人潮当看不见

关注

16
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
transformer

注意力机制多头注意力机制自注意力机制。
复制链接

扫一扫

熙攘人潮当看不见 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

147万+: 周排名

9万+: 总排名

8340: 访问

: 等级

309: 积分

118: 粉丝

177: 获赞

2: 评论

164: 收藏

私信

关注

热门文章

分类专栏

yolo系列 6篇
STM32F10X 2篇

最新评论

yolov5钢材缺陷检测
CSDN-Ada助手: 恭喜作者发布了第10篇博客，“yolov5钢材缺陷检测”！持续创作是提升自身技术水平的不二选择，希望您能继续保持热情，为读者带来更多有价值的内容。接下来，建议您可以尝试探讨一些新的应用场景或者深入分析一些技术细节，以丰富您的博客内容。期待您更多精彩的作品！
PASCAL VOC数据集
CSDN-Ada助手: 恭喜您开始了博客创作，标题选择也非常有深度！PASCAL VOC数据集是一个非常重要的话题，希望您能够深入挖掘其中的内容，结合自己的理解和应用经验，为读者带来更多的启发和帮助。接下来，可以考虑分享一些关于PASCAL VOC数据集的应用案例和实践经验，让读者更加深入地了解这个数据集的价值和意义。期待您的下一篇文章！祝您创作顺利，不断进步！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
YOLOv1的理论介绍
CSDN-Ada助手: 很高兴看到您写了第二篇关于YOLOv1的博客，希望您能坚持下去，继续分享关于计算机视觉领域的知识。除了YOLOv1的理论介绍，您还可以探讨YOLOv1在实际应用中的优缺点，以及与其他目标检测算法的比较分析。此外，您还可以深入研究YOLOv1的网络结构、损失函数、训练技巧等方面，这些内容将有助于读者更全面地了解YOLOv1算法。希望您能继续努力，分享更多有价值的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。