Transfomer
文章平均质量分 65
主要讲解transfomer
不良人大帅
一天是不良人,一辈子都是不良人!
展开
-
【深度学习】Transformer之Masked Multi-Head Attention
对应着上面的a和b。原创 2024-02-03 17:04:41 · 1345 阅读 · 1 评论 -
【深度学习】transformer之 Positional Encoding
注意:与RNN相比,RNN是一个字一个字的输入,自然每个字的循序关系信息就会保留下来,在Encoder中,一句子的每一个字(词)是并行计算的(下一节解释),所以我们在输入的时候需要提前引入位置信息。这样通过与位置编码(positional encoding)相加,则让输入向量x具有了位置信息。奇数的位置是cos, 偶数的位置是sin。i是维度下标,d是总维度。原创 2024-01-29 19:47:28 · 872 阅读 · 0 评论 -
【深度学习】transformer之self-attention
QK相乘求相似度,K里面哪一个对于Q来说是重要的,做一个Scale(作用:未来做softmax的时候避免出现极端情况),然后做softmax得到概率。新的向量表示了K和V(K==V), 然后这种表示还暗含了Q的信息(于Q而言,K里面最重要的信息),挑出了K里面的关键点。Self-Attention 的关键点在于,不仅仅是K、V、Q来源于同一个X,这三者是同源的,通过X找到X里面的关键点。3、Scale+Softmax 进行缩放和softmax。1、Q、K、V的获取,是通过三个参数。原创 2024-01-30 13:31:49 · 390 阅读 · 1 评论 -
【深度学习】transfomer之Add & Norm 和 Feed Forward
前馈网络(feed-forward network)是一种常见的神经网络结构,由一个或多个线性变换和非线性激活函数组成。它的输入是一个词向量,经过一系列线性变换和激活函数处理之后,输出另一个词向量。作用:使模型卷的更深,因为模型要重复N次,Add操作充分考虑了模型复杂度,抵抗模型深度所导致输入信号的衰减,作用:模仿神经元结构,内置两组Linear数据进行转换。作用:把分散的分布重新拉回到正常的分布区间之中。原创 2024-02-04 00:39:02 · 590 阅读 · 1 评论 -
【深度学习】transformer之Multi-head Attention
非线性变换的本质:改变空间上的位置坐标,任何一个点都可以在维度空间上找到,通过某个手段,让一个不合理的点(位置不合理),变得合理。机器学习的本质:在做一件事情,非线性变换(把一个看起来不合理的东西,通过某个手段(训练模型),让这个东西变得合理)多头的个数用h表示,一般h = 8, 我们常用使用的是8头自注意力.2、然后把Z0-Z7拼接起来,再做一次线性变换(改变维度)得到Z。1、对于X,我们将X分成了8块(8头), 得到Z0-Z7。原创 2024-02-03 12:49:38 · 203 阅读 · 1 评论