NLP预训练模型-Transformer：从原理到实战

最新推荐文章于 2024-06-23 10:45:00 发布

置顶 linxid

最新推荐文章于 2024-06-23 10:45:00 发布

阅读量6.5k

点赞数 13

分类专栏：自然语言处理人工智能文章标签： NLP Transformer Attention Bert 自然语言处理

本文链接：https://blog.csdn.net/linxid/article/details/84321617

版权

人工智能同时被 2 个专栏收录

38 篇文章 12 订阅

订阅专栏

自然语言处理

4 篇文章 0 订阅

订阅专栏

感谢Jay Alammar，图源自他的文章[17]。

1. Transformer原理

1.1 高层Transformer

Transformer最初是在机器翻译中提出，所以我们以机器翻译为例。任何一个神经网络模型都可以认为是一个黑箱，Transformer也不例外。
图1：Transformer用于机器翻译
再往里面一层，Transformer是一个Encoder-Decoder结构，结构如下图所示：
Transformer的Encoder-Decoder结构
每一个Encoder是由self-attention+Feed Forward NN构成，如下图所示，所以我们首先要理解self-attention。
在这里插入图片描述
每一个Decoder是由Self-Attention+Encoder-Decoder Attention+Feed Forward NN构成，结构如下图所示：

1.2 Encoder输入：

假设我们的输入三个词，三个词通过Embedding层后，每个词变成一个向量，如下图所示：
在这里插入图片描述
除了最底层输入是词的Embedding，其他层的输入是上一层的输出。这三个词在Encoder中的变换是：

Self-Attention是输入的第一层NN，比较难理解，却是模型的核心组成部分。所以我们单独拿出来讲。

2 Self-Attention:

关于注意力机制详细可以看张俊林博士的文章[3]，此处讲解self-attention，更简单易懂。
以机器翻译为例，假设我们的输入是：
“The animal didn't cross the street because it was too tired”
在翻译的是时候我们希望将it和The animal联系起来，通过注意力机制可以实现这个需求。可以在Tensor2Tensor notebook 进行测试，观察每个词和其他词的对应关系（连接权重）。
在这里插入图片描述

2.1 Self-Attention步骤：

将输入词转变成词向量，即得到Embedding层；
每个词向量得到一个 $Q u e r y$ 向量, $K e y$ 向量和 $V a l u e$ 向量（下面说如何得到）；
为每一个词向量计算一个 $s c o r e ： q u e r y . d o t (k)$ ；
我们需要计算句子中的每一个词对当前词的 $s c o r e$ 。这个 $s c o r e$ 决定对句子的其他部分注意力是多少，也就是如何用句子的其他部分类表征当前词。
对 $s c o r e$ 进行归一化（为了稳定），即除以 $\sqrt{d_k}$ ，然后对 $s c o r e$ 求 $s o f t m a x ()$ ： $softmax(\frac{score}{\sqrt{d_k}})$
$s c o r e$ 和 $V a l u e$ 向量点积，然后对其求和： $\sum{score * Value}$ ；

完结撒花，一图以蔽之：
在这里插入图片描述

2.2 $Q u e r y$ 、 $K e y$ 、 $V a l u e$ ：

刚才挖下的坑，现在来填。刚才我们提到这三个向量但是没有说如何得到的。
将我们的词向量矩阵 $X$ 和权重矩阵 $W_Q,W_K,W_V$ 相乘，即可得到 $Q u e r y$ 、 $K e y$ 、 $V a l u e$ 向量。
在这里插入图片描述
接下来这张图可以清晰的说明白 $Q u e r y$ 、 $K e y$ 、 $V a l u e$ 三个向量的关系。

2.3 Multi-Head Attention:

将词向量数据 $X$ 分别输入到8个不同的Self-Attention中，得到8个特征矩阵 $Z_i,i\in{(1,2...8)}$ ：
8个矩阵无法直接与前馈全连接相乘，所以对8个矩阵拼接，然后与一个权重矩阵 $W_O$ 相乘：
一图总结：

Multi-Head Attention的优点：

扩展模型能力可以注意到不同位置，一个注意力模型的关注点也许是错的，通过多个注意力模型可以提高这种泛化能力；
使得注意力层具有多个表示子空间，比如说上文的8个注意力模型，经过训练后，我们就可以将输入的词嵌入映射到8个不同的表示子空间；

2.4 位置嵌入来表示序列的顺序信息：

Transformer模型的一大缺点是不能捕捉句子的位置信息。试想我们的句子不管如何打乱，从刚才的原理可以看出，Transformer的结果都是相同的。为了解决这个问题，论文中在编码词向量时引入了位置编码（Position Embedding），词的位置信息通过位置编码来表示。
论文中令位置嵌入的维度和词向量的维度相同，然后与词向量相加。位置嵌入，可以帮我们判断每个词的位置和词向量之间的距离。
在这里插入图片描述
论文中的位置嵌入公式是：
$PE_{(pos,2i)} = sin(\frac{pos}{1000^{2i/d_{model}}})$
$PE_{(pos,2i+1)} = cos(\frac{pos}{1000^{2i/d_{model}}})$
以上便是Slef-Attention的全部内容。

3 残差网络（Residuals Network）：

构成Transformer的Encoder除了上述部分还有残差网络和一层归一化，通过图可以更容易明白。
在这里插入图片描述

4. Keras实现：

4.1 自注意力机制：

2.1中详细介绍的Self-Attention可以通过下列代码实现。忘记的可以和前面的公式去对应。

class ScaledDotProductAttention():
    def __init__(self, d_model, attn_dropout=0.1):
        self.temper = np.sqrt(d_model)
        self.dropout = Dropout(attn_dropout)
    def __call__(self, q, k, v, mask):
        attn = Lambda(lambda x:K.batch_dot(x[0],x[1],axes=[2,2])/self.temper)([q, k])
        if mask is not None:
            mmask = Lambda(lambda x:(-1e+10)*(1-x))(mask)
            attn = Add()([attn, mmask])
        attn = Activation('softmax')(attn)
        attn = self.dropout(attn)
        output = Lambda(lambda x:K.batch_dot(x[0], x[1]))([attn, v])
        return output, attn

4.2 求位置嵌入向量：

详细公式可以见2.4，以下为keras实现：

def GetPosEncodingMatrix(max_len, d_emb):
    pos_enc = np.array([
        [pos / np.power(10000, 2 * (j // 2) / d_emb) for j in range(d_emb)] 
        if pos != 0 else np.zeros(d_emb) 
            for pos in range(max_len)
            ])
    pos_enc[1:, 0::2] = np.sin(pos_enc[1:, 0::2]) # dim 2i
    pos_enc[1:, 1::2] = np.cos(pos_enc[1:, 1::2]) # dim 2i+1
    return pos_enc