9-6学习日记

沈柏霜

已于 2024-09-07 16:09:14 修改

阅读量445

点赞数 7

文章标签：学习

于 2024-09-07 15:53:17 首次发布

本文链接：https://blog.csdn.net/qq_39657313/article/details/141964806

版权

一、transform架构

在这里插入图片描述
用一句话来说，Transform 是一种将输入的词向量通过编码器进行处理，然后将其生成的隐藏表示传递给解码器，最后输出新的词向量或序列，这些词向量符合我们所需的任务目标（如翻译、生成文本等）

二、编码器

编码器由八个叠加的enconder组成，每一个encoding都由一个自注意力层和一个前馈神经网络组成。每一个组件之间都有一个残差网络和归一化。
在这里插入图片描述
我们看这里，
1.当x1和x2输入后先得到词向量（独热编码或word2vec等等），
2.再叠加位置编码得到新的x1和x2，然后经过自注意力的计算，这里是x1与全部的词向量做计算，这样得到的z1就有了位置特征、句法特征和语义特征。这里的q是x1的词向量，k、v是全部的词向量。
3.再经过残差网络，其作用是避免梯度消失。何为梯度消失？例如w3(w2(w1x+b1)+b2)+b3，当w1、w2、w3特别小的时候，求梯度x可以认为直接没了，这时残差网络会w3(w2(w1x+b1)+b2)+b3+x，这样就保证了x还在，即在原始网络上额外加了一个 x 的跳跃连接。
4.再经过LayerNorm完成归一化
5.经过feed forward，之前的每一步都是在做线性变换，只是在平移和伸缩操作。这里会先通过Relu做一次非线性变换，这样就可以模拟空间中的任意一种状态了

整理一下，在 Transformer 编码器中，每个层包含两个主要部分：
1.自注意力层（Self-Attention Layer）：
（1）经过自注意力机制的输出与输入进行加法操作（残差连接）。
（2）对加法后的结果进行层归一化。
2.前馈神经网络层（Feedforward Neural Network Layer）：
（1）经过前馈神经网络的输出与输入进行加法操作（残差连接）。
（2）对加法后的结果进行层归一化。

三、解码器

在这里插入图片描述
可以看到，编码器的结果输出到解码器的encoder-decoder attention层，这里有几个点：
1.解码器的输入是已生成的词语，当初始状态时，模型使用特殊的标记，这个标记会被嵌入成一个词向量，并作为解码器的第一个输入，送入解码器层
2.可以看到解码器多出了一个encoder-decoder attention 层，经过这一层的计算，解码器就能处理两个来源的信息：
（1）解码器自己的输入（已经生成的词）：解码器需要根据已经生成的词预测下一个词。
（2）编码器的输出（原始输入句子的编码表示）：解码器还需要依赖原始输入句子的语义信息，以生成与输入句子相关的输出序列。
这里的q是解码器自己的输入，包含了解码器已生成的词的信息和当前上下文，k、v是编码器的输出
3.编码器用的就是普通的自注意力机制，因为编码器的任务是处理整个输入序列，并让每个词都能“看到”其他所有词。因为编码器在处理输入时，已经拥有完整的句子，因此它不需要对某些位置进行屏蔽。而解码器使用掩码自注意力机制，以确保每一步只能够看到已经生成的词，而不能看到未来的词。这是因为解码器在序列生成任务中，每一步只能基于已经生成的词来预测下一个词，不能提前知道未来的词。
4.解码器输入后也需要先做位置编码