transformer的一些注意

人间真正走过~

已于 2022-05-30 15:57:54 修改

阅读量643

点赞数

分类专栏： python 文章标签： transformer 自然语言处理人工智能

于 2022-05-26 16:03:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37198422/article/details/124969454

版权

python 专栏收录该内容

45 篇文章 3 订阅

订阅专栏

首先长这样：

1.关于两种mask

参考Transformer 中的mask_Caleb_L的博客-CSDN博客_transformer中的mask

1）padding mask

在encoder和decoder两个模块里都有padding mask，位置是在softmax之前

为什么要使用padding mask，是因为由于encoder和decoder两个模块都会有各自相应的输入，但是输入的句子长度是不一样的，计算attention score会出现偏差，为了保证句子的长度一样所以需要进行填充

但是用0填充的位置的信息是完全没有意义的（多余的），经过softmax操作也会有对应的输出，会影响全局概率值，因此我们希望这个位置不参与后期的反向传播过程。以此避免最后影响模型自身的效果，既在训练时将补全的位置给Mask掉，也就是在这些位置上补一些无穷小（负无穷）的值，经过softmax操作，这些值就成了0，就不在影响全局概率的预测。

2）Sequence MASK

只存在decoder的第一个mutil_head_self_attention里

因为在测试验证阶段，模型并不知道当前时刻的输入和未来时刻的单词信息。也就是对于一个序列中的第i个token解码的时候只能够依靠i时刻之前(包括i)的的输出，而不能依赖于i时刻之后的输出。因此我们要采取一个遮盖的方法(Mask)使得其在计算self-attention的时候只用i个时刻之前的token进行计算。

因此在encoder中，只有padding mask

decoder中，既有padding也有seqeunce，后者是一个下三角，总的是两个矩阵的叠加

2.feed forward

第一层的激活函数为 Relu，第二层不使用激活函数

3.softmax是按行进行

4.decoder的输入

1）第二个 Multi-Head Attention

变化不大，主要的区别在于：

A. 其中 Self-Attention 的 K, V矩阵不是使用上一个 Decoder block 的输出计算的，而是使用 Encoder 的编码信息矩阵 C 计算的。

B. 第二个attention无需 Mask

2）是否传入真值：

训练时，outputs？测试时，？【待补充】

5.训练时loss、optimizer怎么操作？

对如下代码

for epoch_idx in tqdm(range(100)):

for batch_idx,batch in enumerate(train_generator):

...

                optimizer.zero_grad()
          loss.backward()
        optimizer.step()

注意以上三者的顺序。作用分别是：清空梯度、计算梯度、反向传播。

源代码中optimizer.zero_grad()、optimizer.step()是在第二个for循环之外，这不对，因为相当于你只根据最后一个batch来更新梯度

人间真正走过~

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
transformer的一些注意

首先长这样：1.关于两种mask参考Transformer 中的mask_Caleb_L的博客-CSDN博客_transformer中的mask1）padding mask在encoder和decoder两个模块里都有padding mask，位置是在softmax之前为什么要使用padding mask，是因为由于encoder和decoder两个模块都会有各自相应的输入，但是输入的句子长度是不一样的，计算attention score会出现偏差，为了保证句子的长度一.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。