Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展,成为人工智能主流技术范 式。
预训练语言模型采用“预训练
+
微调”方法,主要分为两步:
1) 将模型在大规模无标注数据上进行自监督训练得到预训练模型,
2) 将模型在下游各种自然语言处理任务上的小规模有标注数据进行微 调得到适配模型。由于预训练语言模型参数越大模型表现越好,这激 发了语言大模型(
Large Language Model, LLM
)研究热潮。
Transformer 架构
Transformer
架构
[13]
是目前语言大模型采用的主流架构
[5],其基 自注意力机制(Self-attention Mechanism)模型。
其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递。
标准的
Transformer
如图
2-1
所示,是一个编码器
-解码器架构, 其编码器和解码器均由一个编码层和若干相同的
Transformer 模块层 堆叠组成。
编码器的
Transformer 模块层包括多头注意力层和全连接前馈网络层,这两部分通过残差连接和层归一化操作连接起来。
解码器由于需要考虑解码器输出作为背景信息进行生成,其中每个
Transformer
层多了一个交叉注意力层。
相比于传统循环神经网络(
Recurrent Neural Network, RNN)和长短时记忆神经网络(
Long Short-Term Memory Network, LSTM
),
Transformer 架构的优势在于它的并行计算能力,即不需要按照时间步顺序地进行计算。