NLP期末复习

最新推荐文章于 2024-09-27 22:47:07 发布

波奇boki酱

最新推荐文章于 2024-09-27 22:47:07 发布

阅读量375

点赞数 4

文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/2301_78464040/article/details/139998785

版权

1）Transformer 中的可训练 Queries、Keys 和 Values 矩阵从哪儿来？Transformer 中为何会有 Queries、Keys 和 Values 矩阵，只设置 Values 矩阵本身来求 Attention 不是更简单吗？

Queries（查询）、Keys（键）和Values（值）矩阵是通过线性变换从输入的词嵌入向量得到的。这些矩阵是通过训练得到的，它们的作用是将输入的词嵌入向量映射到更高维度的空间，并且通过学习过程中逐渐调整其中的参数，以使模型能够更好地捕捉输入序列中的语义信息和关系。

这是因为在自注意力机制（Self-Attention Mechanism）中，需要通过Queries和Keys的相互关联度来计算注意力权重，然后再根据这些权重对Values进行加权求和。这种设计的优势在于能够允许模型在计算注意力时同时考虑到不同位置之间的依赖关系，从而更好地捕捉到输入序列中的上下文信息。

至于为什么不只设置Values矩阵来求Attention，而是要同时使用Queries和Keys矩阵，原因在于Queries和Keys矩阵能够提供更丰富的信息，从而使模型能够更准确地计算注意力权重。只使用Values矩阵可能会限制模型的表达能力，无法充分利用输入序列中的信息。

为何使用Layer Norm而不是Batch Norm：在Transformer中，由于每个位置的输入都是独立处理的，而不是像卷积神经网络中的批处理（Batch Processing），因此Batch Normalization的假设并不适用。此外，由于Transformer中涉及到不同位置的注意力计算，批处理的概念不再适用。相比之下，Layer Normalization更适合Transformer，因为它在每个位置的特征维度上进行归一化，而不是在批处理的维度上进行归一化。

Transformer中的神经网络能够很好地表示信息的原因可以归结为以下几点：

Self-Attention机制： Transformer引入了Self-Attention机制，使得模型能够在计算时同时考虑输入序列中不同位置之间的依赖关系。通过自注意力机制，模型可以根据输入序列中每个位置的重要性来动态调整对应位置的表示，从而更好地捕捉输入序列中的长距离依赖关系和语义信息。

多头注意力机制： Transformer中的注意力机制被扩展为多头注意力机制，允许模型在不同的注意力头中学习到不同的表示。这样可以提高模型对输入序列的多样性建模能力，使得模型能够更好地理解不同层次和方面的语义信息。

位置编码： Transformer使用位置编码来将位置信息融入输入序列的表示中，从而使模型能够理解输入序列中词语的位置顺序。位置编码允许模型在表示时区分不同位置的词语，有助于模型更好地捕捉到序列中的顺序信息。

残差连接和层归一化： Transformer中的每个子层（如Multi-Head Attention和Feedforward层）都使用了残差连接和层归一化来缓解梯度消失和梯度爆炸问题，使得模型更容易训练并且能够更好地利用深层网络结构。

更强大的表示能力： Transformer模型由多个Encoder和Decoder堆叠而成，每个Encoder和Decoder都包含多个层，每个层中又包含了多个子层。这种深层结构使得Transformer具有更强大的表示能力，能够学习到复杂的输入序列表示，并且适用于各种自然语言处理任务。

2）Transformer 的 Layer 深度过深，例如 512 个 Layer，会可能导致什么现象？请详述背后的数学机制

梯度消失或爆炸：随着层数的增加，梯度在反向传播过程中可能会逐渐消失或爆炸，导致模型难以收敛或训练不稳定。

计算资源消耗：更深的Transformer模型需要更多的计算资源来进行训练和推理，可能超出了可用的资源限制。

过拟合：更深的模型可能会增加过拟合的风险，特别是在数据集较小的情况下，模型可能会过度学习训练数据的噪声。

训练时间增加：更深的模型需要更长的训练时间来收敛，这可能会增加训练成本和时间成本。