论文导读：transformer

最新推荐文章于 2024-12-31 07:00:00 发布

lll2343

最新推荐文章于 2024-12-31 07:00:00 发布

阅读量816

点赞数

文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/liu_mumu/article/details/127482274

版权

本文介绍了Transformer模型，一种基于注意力机制的深度学习架构，特别强调了其在机器翻译中的应用，以及与CNN和RNN的不同之处。Transformer通过并行计算和位置编码解决了长序列依赖问题，包括自注意力、多头注意力和编码器-解码器结构的详细解析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

transfomer 《Attention is all you need》

提出的时候是引用在机器翻译之中

transformer和CNN、RNN不同，其网络结构是基于attention机制，使用attention机制来刻画输入和输出的全局依赖关系。

transformer结构和大部分编码器-解码器架构类似，整体结构是6个堆叠的相同的encoder block和六个decoder block

更好的并行化（ANN会有一系列的隐状态 $h t$ ，），更短的训练时间

单词的表示向量 $X$ 。

$t r an s f o m er 的单词表示 X = 词特征向量 + 词位置信息$

$X_{n\times d}$ , $n$ 是单词个数， $d$ 是embeding维度。

词embeding就是词向量，可以使用word2vec,glove,MLP来预训练得到
位置embeding（PE）表示单词在句子中的位置信息。（因为cnn和rnn的结构都可以获得单词的顺序信息，但transformer使用的是全局信息，就需要加入一些序列的位置信息）。PE可以预训练得到，也可以根据公式计算。

reference：nndl-book 8.2&&8.3

从 $N$ 个输入向量 $X$ 中选择出和某个特定任务相关的信息

三个重要的向量

打分函数 $s (x, q)$ 用于计算输入向量 $x$ 和查询向量 $q$ 间的相关性

模式：

将单个序列的不同位置联系起来

常用的是 查询-键-值(QKV) 模式。

过程

step1:

对每个输入向量 $x_i$ ，通过线性变化得到三个向量 $q_i,k_i,v_i$ 。

线性变化的过程中就有仨可学习的参数矩阵 $W_q,W_k,W_v$ 。

$Q=W_qX$ ， $K, V$ 同
step2

对每个查询向量 $q_i$ ，使用键值对的注意力机制，得到输出向量 $h_i$
$\alpha_{ij} = softmax(s(k_j,q_i)) \\ Att((k_j,v_j),q_n) = \Sigma \alpha_{ij} v_j \\ h_i = Att((K,V),q_i)$
$V\ softmax({K^TQ\over \sqrt{D_k}})$

self-attention 可以作为神经网络的一个部件来使用，比如代替卷积层或者池化层。

多个self-attention的组合

以 $h = 8$ 为例，过每个self-attention都会有一个输出矩阵 $Z_i$ 。将 $Z_i(i\in [1,8])$ 拼接contact起来，再经过一个线性变化，得到最终的输出 $Z$

在这里插入图片描述

$softmax({K^TQ\over \sqrt{D_k}})\cdot V$

$D_k$ 是输入向量的维度， $K^TQ\over {\sqrt {D_k}}$ 叫做缩放点积， $D$ 太大的时候其 $K^TQ$ 的方差较大，导致softmax的梯度小。

点积运算还快，省空间…

step2: Add&Norm

就是正则化的处理，Norm转成同均值方差的结果
step3: feed froward neural network

两层全连接的前馈神经网络，第一层过ReLU，第二层是一个线性激活函数 $Z\cdot W_1+b_1)\cdot W_2 + b_2$

输入和输出维度保持一致
step4: Add&Norm