目录
前面第 5-6 节介绍了 Self-Attention 自注意力机制、Transformer 模型结构。这就相当于我们盖房子准备好了砖头,本节主要介绍如何把 Tranformer 模型组合起来,形成一个完整的 GPT 模型结构,而组合的方式,就用到了Encoder-Decoder 编解码架构模式。在这一节中,我们将对前述章节的内容做一个汇总,让读者对 GPT 模型从全局有一个清晰的认知。
Encoder-Decoder 编码器-解码器架构
在第 1-2 节中,我们大致介绍了语言模型的编解码结构。如下图所示。
实际上,encoder-decoder 这一套模型架构最早是用于解决机器翻译问题的,感兴趣的读者可以读一下这篇经典论文【2014: