Transformer知识点

最新推荐文章于 2024-08-17 12:15:00 发布

数学工具构造器

最新推荐文章于 2024-08-17 12:15:00 发布

阅读量407

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TQCAI666/article/details/114295482

版权

Transformer模型因其高效并行计算与强大的序列建模能力而被广泛应用。本文深入探讨Transformer的运行流程，包括多头注意力机制的作用，为什么Q和K使用不同权重矩阵，softmax前的scaled操作原因，以及如何处理padding。此外，还讨论了位置编码的重要性，Encoder和Decoder的交互，以及并行化和学习率设定等关键问题。

摘要由CSDN通过智能技术生成

Transformer和Bert相关知识解答

transformer问题整理（参考知乎大佬内容）

矩阵、张量乘法（numpy.tensordot）的时间复杂度分析

文章目录

Transformer的运行流程
Transformer为何使用多头注意力机制？
Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？
Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别
※ 为什么在进行softmax之前需要对attention进行scaled（为什么除以dk的平方根），并使用公式推导进行讲解
在计算attention score的时候如何对padding做mask操作？
为什么在进行多头注意力的时候需要对每个head进行降维（切割）？
大概讲一下Transformer的Encoder模块？
为何在获取输入词向量之后需要对矩阵乘以embedding size的开方？意义是什么？
※ 简单介绍一下Transformer的位置编码？有什么意义和优缺点？你还了解哪些关于位置编码的技术，各自的优缺点是什么？
简单讲一下Transformer中的残差结构以及意义。
为什么transformer块使用LayerNorm而不是BatchNorm？LayerNorm 在Transformer的位置是哪里？
简答讲一下BatchNorm技术，以及它的优缺点。
简单描述一下Transformer中的前馈神经网络？使用了什么激活函数？相关优缺点？
Encoder端和Decoder端是如何进行交互的？（在这里可以问一下关于seq2seq的attention知识）
Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？（为什么需要decoder自注意力需要进行 sequence mask)
Transformer的并行化提现在哪个地方？Decoder端可以做并行化吗？
简单描述一下wordpiece model 和 byte pair encoding，有实际应用过吗？
Transformer训练的时候学习率是如何设定的？Dropout是如何设定的，位置在哪里？Dropout 在测试的需要有什么需要注意的吗？
引申一个关于bert问题，bert的mask为何不学习transformer在attention处进行屏蔽score的技巧？

Transformer的运行流程

Transformer为何使用多头注意力机制？

从直觉上的解释，其实类似cnn中的多核，关注到不同子空间的信息，捕捉到更加丰富的特征信息
当然从代码实现上不是类似于cnn的多核，因为keyi, queryi 并没有去关注其他子空间j!=i的值

为什么Transformer 需要进行 Multi-head Attention？

What Does BERT Look At?An Analysis of BERT’s Attention.pdf

将模型分为多个头，形成多个子空间，可以让模型去关注不同方面的信息

Transformer，或Bert的特定层是有独特的功能的，底层更偏向于关注语法，顶层更偏向于关注语义。

既然在同一层Transformer关注的方面是相同的，那么对该方面而言，不同的头关注点应该也是一样的。但是我们发现，同一层中，总有那么一两个头独一无二，和其他头的关注pattern不同，比如下图：

在这里插入图片描述
头之间的方差随着所在层数的增大而减小。

一种可能的解释是，它类似一种noise，或者dropout，而不是去关注不同的方面。也就是说，无论多少层，既然都会出现与众不同的头，那么这个（些）头就是去使得模型收敛（效果最优）的结果，反过来说，模型可能认为，全部一样的头不会使效果最优（至少在梯度下降的方法上）。这样的话，把这个（些）头解释为模型的一种“试探”，或者噪声，是可能合理的。
另外一种解释是，Transformer对初始化比较敏感，一些初始化点必然导致不同的头，但这样解释就很难从直觉上解释了。
Transformer底层的头方差大是因为Transformer存在的梯度消失问题，也就是说，并不是模型自己觉得底层的方差大是好的，而是自己没有办法让它变好。所以，合理的初始化应该可以减少底层头的方差，提高效果。Improving Deep Transformerwith Depth-Scaled Initialization and Merged Attention

在这里插入图片描述

BLEU (其全称为Bilingual Evaluation Understudy), 其意思是双语评估替补

在这里插入图片描述

Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？

transformer中为什么使用不同的K 和 Q，为什么不能使用同一个值？

两个向量的点乘表示两个向量的相似度，如果在同一个向量空间里进行点乘，理所应当的是自身和自身的相似度最大，那会影响其他向量对自己的作用，（形成类似单位矩阵？）

使用Q/K/V 不相同，保证在不同空间进行投影，增强表达能力，提高泛化能力

Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别

答案解析：为了计算更快。矩阵加法在加法这一块的计算量确实简单，但是作为一个整体计算attention的时候相当于一个隐层，整体计算量和点积相似。在效果上来说，从实验分析，两者的效果和dk相关，dk越大，加法的效果越显著。更具体的结果，大家可以看一下实验图(从莲子同学那里看到的，专门去看了一下论文)：

在这里插入图片描述

※ 为什么在进行softmax之前需要对attention进行scaled（为什么除以dk的平方根），并使用公式推导进行讲解

transformer中的attention为什么scaled?

$D\left(\frac{q \cdot k}{\sqrt{d}_{k}}\right)=\frac{d_{k}}{\left(\sqrt{d}_{k}\right)^{2}}=1$

最低0.47元/天解锁文章

数学工具构造器

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

数学工具构造器

博客等级

码龄6年

503
原创

171
点赞

562
收藏

207
粉丝

关注

私信

热门文章

分类专栏

最新评论

编写C++代码理解原码和补码
做而论道_CS: 所谓的：机器数符号位原码反码 ... 都是计算机专家在【忽悠、卖拐】而已。正负数值，存入计算机，都是以 “补码” 存放的。计算机中，根本就没有原码和反码。除非，你偏要自寻烦恼，偏要在计算机中，存入原码和反码。既然没有原码反码，那么，取反加一，计算机也就不能做了。其实，所谓的 “补码”，也是正常的数字。　也并非一定是二进制数。你看十进制吧，两位数：0 ~ 99。可以有：27 + 99 = (一百) 26 也可以：27 － 1 = 26 如果你忽略进位，依旧保持两位数，　这两种算法的功能，就是相同的！就是说，当你舍弃了进位：　负数，就能用正数代替；　加法，竟然就能实现减法运算！在计算机中，舍弃进位，会怎样？　就可以简化硬件。　用一个加法器，便可横行天下！由此可知，“补码”，根本就不是什么新鲜事。　“补码” 关键，是：【舍弃进位】。　并不是：符号位原码反码取反加一。－－－－－－－－－－－用两位十进制运算时，舍弃进位，就是【减去一百】。那么，加 99，再减 100，当然就是 “－1” 了。计算机使用的，是二进制数。八位二进制数是：0000 0000 ~ 1111 1111。相当于十进制数：0 ~ 255。如果出现 “进位 = 1”，就是：2^8 = 256。那么，加 255，再减 256，这也就是 “－1” 了。所以：+255 (1111 1111)，就是：－1；同理：+254 (1111 1110)，就是：－2；　　　+253 (1111 1101)，就是：－3；　　　。。。　。。。　　　+128 (1000 0000)，即：－128。以上这些正数，就是计算机专家 “发明” 的补码了。由此可知：　所谓的 “补码”，也是正常的数字。　之所以能代替负数，关键是【舍弃了进位】。　“补码” 与 “符号位原码反码” 也没有任何关系。至此，你肯定能看出关系式：　负数的补码 = 256 + 该负数。一般化，就是：　负数的补码 = 2^n + 该负数。　n，是二进制数的位数。例：求－31 的 “补码” 是多少？解：256－31 = 225 = 1110 0001 (二进制)。　这不就求出来了吗？　　哪还用琢磨什么：符号位原码取反。。。！　　　还要啥自行车啊！
UltraOpt：比HyperOpt更强的超参优化库
2401_84289284: 为什么安装运行代码后出现Invalid optimizer string-indicator: ETPE呢？
C++ 学习
不知名的憨包: 这是什么课程啊，在哪里看啊
ASTGCN
gsagsfasds: 你好，请问你使用原mxnet版本的代码跑通了吗
sdf转smi
野蛮北野1: 作者，您好我想请问一下这个代码是什么意思、我没太看懂（初学者我是）

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。