2. Transformer基础学习--encoder模块

清河小营桥

已于 2024-04-09 16:22:22 修改

阅读量1.8k

点赞数 38

文章标签： transformer 学习深度学习

于 2024-04-09 16:10:49 首次发布

本文链接：https://blog.csdn.net/cs_SZHS/article/details/137526482

版权

本文详细介绍了Transformer模型中的encoder模块，包括多头自注意力、残差连接、层归一化和位置-wisefeed-forwardnetworks的作用，展示了如何通过这些组件提取句子特征并理解语义和句法。

摘要由CSDN通过智能技术生成

encoder模块

本篇主要介绍transformer中的encoder模块。简单来说，encoder是将输入的句子的特征提取出来，让我们来看看，它具体是如何实现的。

下图左边的模块，就是encoder模块，可以直观的看到，先是multi-head attention，然后经过一个add&norm, 再通过feed forward和add&norm，得到这个decoder的输出。下面将对各个模块进行讲解。

1. 多头自注意力 multi-head Attention

我们首先回顾一下 自注意力 ，在上篇我们讲过自注意力的基本思路，就是给定一个句子 x，通过学习每个单词，跟这个句子中其他单词的关系，得到对这个单词新的理解 z。上篇讲的是自注意力，在decoder部分，我们还会讲 交叉注意力。

简单来说，通过 attention 模块，使得 X --> Z。Z是包括了语义和句法信息的X。

那么，多头自注意力是在做什么呢？“一千个人读哈姆雷特，就有一千个哈姆雷特”。一个attention模块，学习到一种对x的理解。那么多个attention就能从不同的角度，去理解x。最后再将他们所有人学习到的理解，都合起来，成为最终对x的理解z。

那么具体的流程是怎样的呢？

（1）首先，单词经过embeding层得到x，它的维度是512, 即 $d_{model}=512$ 。（这个维度跟具体embeding的方法有关，先知道得到的维度是512就行）

（2）一般来说，多头自注意力的数量， $h=8$ 。（你想用其他的也可以）先将得到的x，拆分成8份， $x^{'}$ ，分别送给每个attention去学习。于是，每个attention里 q, k, v 的维度变成：

$d_{k} = d_{v} = d_{model} / h = 512 / 8 = 64$

（3）拆分后的 $x^{' }$ ，经过8个attention进行学习后，得到8个结果 $z^{'}$ 。

（4）但是我们最终需要的还是z，维度上应该跟x，保持一致。所以需要先将8个 $z^{'}$ 拼接concat起来，再矩阵变换 $W^{o}$ ，使得z维度跟原来的x一样。就得到了最终的结果z

值得注意的是，拆分维度计算8个attention的计算量跟不拆维度计算一个attention的计算量很接近。但是拆分8个head去计算肯定比只总体算一个学到的东西更细节啊，而且还不消耗更多的资源，所以采用多头的方法是很合理的。

2. 残差连接和层归一化

残差连接（a residual connection）

残差连接是用于缓解 梯度消失问题。比如，对于y=wx+b。在训练过程中，w的值变得越来越小，在计算梯度的时候，就会发现梯度也变得很小，到最后可能就没有什么变化，就没有在学习到东西。所以，为了避免这个问题，在经过一系列layer后，我们把原来的x再拿过来。这样即便w变得很小，我们还有原来的x的梯度存在，就不容易导致梯度消失。

做法也很简单，就是F(x) + x。直接把x加过来就行。