从代码层面理解Transformer

FourierTransformer

已于 2023-05-21 21:49:28 修改

阅读量417

点赞数 1

分类专栏： transormer系列文章标签： transformer 深度学习人工智能计算机视觉

于 2023-05-21 17:41:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qfpkzheng/article/details/130792017

版权

transormer系列专栏收录该内容

3 篇文章 0 订阅

订阅专栏

跑通

代码使用的是 https://github.com/jadore801120/attention-is-all-you-need-pytorch,

commit-id 为: 132907d

各模块粗览

Transformer

主要包括一堆参数,
以及encoder和decoder

在这里插入图片描述

forward的时候主要做了如下操作.

先 pad_mask
过encoder
过decoder
输出logit

在这里插入图片描述

从train.py 我们可以看出, 模型的输出直接去做了loss

在这里插入图片描述
这里的Loss就是cross_entropy.

然后每个encoder其实是一堆EncoderLayer的,每个decoder其实也是一堆DecoderLayer的, 所以先大致看一下.

Encoder

在这里插入图片描述
整体流程如下

输入原始的src_seq, 得到word embeding, 叫做 enc_output
做position_encoder, 即位置编码.
做LayerNorm
过各个堆叠的encoder-layer, 每一个encoder-layer的输入都是上一层的输出.
返回最后一个encoder-layer的输出

什么是PositionEncoding

这个模块其实没有可以学习的参数. 这里的这个buffer的用法可以学习一下.
在这里插入图片描述

这里的这个实现还是挺简洁的. 一行就解决了.

Decocer

Decoder的结构和encoder的结构几乎一样,
在这里插入图片描述

但是要注意的是, Decnoder的输入.
在这里插入图片描述

也就是说, Decoder中的positionEncoding是对groundtruth做的.

这里我有一个疑问, 推理的时候, 没有trg_seq 的时候具体是怎么做的呢?

推理时细节

在这里插入图片描述

输入一个句子, 会先用encoder得到encoder_output.
同时会有 init_seq 传进decoder里面
这里的init_seq 是

在这里插入图片描述

在这里插入图片描述
而 trg_box_idx 是一个常数. 即

然后从第2个词开始, 循环作为decoder模块的输入传进去.

在这里插入图片描述

各模块细节

EncoderLayer

如图每个EncoderLayer包括了, self-attention, 以及 positionFFN.

这里的self-attention是MultiHeadAttention.

MultiHeadAttention

看MultiHeadAttention的操作的话，主要是经历了以下主要的几个操作

在这里插入图片描述
把这个图画成下面这个样子来理解:

在这里插入图片描述

Attention

这里的Attention其实就是这个公式

在这里插入图片描述
代码里面叫做 ScaledDotProductionAttention

在这里插入图片描述

这里的temperature 是MultiHeadAttention的一个参数,
在这里插入图片描述

这里面需要注意的是, n_head这个参数,
在看知乎(https://zhuanlan.zhihu.com/p/48508221)上面的讲解时, 是这样的流程图
在这里插入图片描述
我理解其实是一样的, 一个是流程图解释，而一个是具体的实现方式.

PositionwiseFeedForward

在这里插入图片描述
也就是经过了两个全连接层, 然后过一个droupout, 过残差, 然后再过layer_norm

至此,整个encoder 其实就是两个模块, 一个是self-attention, 一个是FFN.
在这里插入图片描述
然后这里的self-attention,其实是Multi-Head-Attention.

DecoderLayer

decoder layer的模块其实和encoder的模块差不多,但是多了一个MultiHeadAttention, 这个叫encoder-decoder-attention.

在这里插入图片描述

forward的时候, 会把dec_input 分三份输入 self_attion模块中,

在这里插入图片描述

然后 encoder的output和上面的dec_output 作为encoder-decoder-attention的输入

在这里插入图片描述
最终返回三个东西. 分别是

dec_output, dec_slf_attn, dec_enc_attn.

其它补充

mask在encoder里如何起作用的

我们先追溯被用在了哪里
首先是这样传入encoder的
在这里插入图片描述
又是这样被传入每个encoder-layer的

又是这样在每个encoder-layer被使用的.

即在MultiHeadAttention中是
在这里插入图片描述
最终确定是在这里被使用的

在这里插入图片描述
先来看一下 masked_fill如何使用, 它输入两个参数, 一个是mask, 一个是value,
也即是说, 在mask为1的那些地方, 把值改成value, 而mask为0的地方的值不改变.

即么上面的意思就是说在(mask0)的这些地方让attention的值变得非常地小, 而又经过了softmax之后, 也就是说这些mask0的地方的响应值为0. 或者说接近于0.
总结一句话就是, 传入的mask的作用. 会让其在值为mask=1的地方几乎不响应.

FourierTransformer

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从代码层面理解Transformer

这个模块其实没有可以学习的参数.这里的这个buffer的用法可以学习一下.这里的这个实现还是挺简洁的. 一行就解决了.
复制链接

扫一扫

专栏目录

FourierTransformer CSDN认证博客专家 CSDN认证企业博客

码龄9年

79: 原创

5万+: 周排名

12万+: 总排名

25万+: 访问

: 等级

1866: 积分

76: 粉丝

94: 获赞

35: 评论

248: 收藏

私信

关注

热门文章

分类专栏

最新评论

Mac外接键盘ikbc win键无法使用问题
麦滋堡的摸鱼芝士: 好使，差点买新键盘了
python3下pypcd的使用
Junsun Chen: from pypcd import pypcd 请问下这句话在哪里改
python中cv2.projectPoints的用法
yang_njupt: imagePoints, flag = cv2.projectPoints(lidar_points, rotation, translation, camera_K, dist) imagePoints = np.reshape(imagePoints, (8, 2)) 你这样写有个问题，前面lidar_points = lidar_points[lidar_points[:, 2]>0] 删选之后，num points点有可能不是8的倍数，后面出来之后都不知道顺序了
python中cv2.projectPoints的用法
FourierTransformer: 第一行得到的lidar_points, 其实已经是相机坐标系下的了, 你看已经用lidar2camera转到camera坐标系下了, 名字写得不太好,
python中cv2.projectPoints的用法
GRF-Sunomikp31: 这里就是加了一个z大于0的条件，保证投影到图像上的点都是图像前方的点吧，但是如果我的雷达和相机有个yaw角的偏差怎么办？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。