Transformer模型

肉松拿铁

于 2024-07-29 15:01:48 发布

阅读量251

点赞数 4

分类专栏：深度学习文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46574748/article/details/140766700

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Transformer在做什么事情？

下图是一个机器翻译流程：输入中文经过Transformer得到对应翻译的英文
细化流程图：Transformer模型可以拆解为Encoders + Decoders
继续细化：注意所有Encoders是结构上完全相同（参数上不是：也就是说要训练所有的Encoders）的且数量可以自定义，Decoders也是完全相同（参数上不是：也就是说要训练所有的Decoders）的且数量可以自定义，Encoders和Decoders架构不相同。
Transformer原论文图

Encoder细节

Encoder可以分为以下三个部分：
在这里插入图片描述

1. 输入部分

在这里插入图片描述

1.1 Embedding

Embedding 就是用一个数值向量“表示”一个对象（Object）的方法
在这里插入图片描述

1.2 位置嵌入

在这里插入图片描述

上图是RNN的架构，RNN具有天然的时序关系（有先后顺序）
Transformer则是一起处理，增强了速度但是忽略了单词之间的序列关系，所以需要位置编码来告诉模型，单词之间的排列顺序

位置编码公式
在这里插入图片描述

2. 注意力机制

在这里插入图片描述
注意力机制计算公式

例子1：

例子2：

残差和Laynorm

在这里插入图片描述

x1和x2是词向量
经过位置编码后对应位相加得到新的x1和x2
经过注意力层得到z1和z2
把x和z对应位相加作为残差的一个结果
经过layerNorm后输出

3.1 残差

在这里插入图片描述

PS：使用LayerNorm而不使用传统BatchNorm

BN

feature scaling为了让模型收敛的更快
在这里插入图片描述
BN：对整个Batch样本的同一纬度做处理

LN

在这里插入图片描述

3. 前馈神经网络

在这里插入图片描述

Decoder细节

1. 多头注意力机制

在这里插入图片描述

2. 交互层

在这里插入图片描述

encoder和每一个decoder做交互

encoder生成K、V矩阵
decoder生成Q矩阵

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型

上图是RNN的架构，RNN具有天然的时序关系（有先后顺序）feature scaling为了让模型收敛的更快。BN：对整个Batch样本的同一纬度做处理。encoder和每一个decoder做交互。encoder生成K、V矩阵。decoder生成Q矩阵。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。