为什么LLM都用的Decoder only结构？_encoder的模型是在训练的时候一直在做完形填空-CSDN博客

本文链接：https://blog.csdn.net/2301_79093491/article/details/135573116

文章探讨了LLM模型放弃encoder架构转向decoder-only的原因，涉及训练数据量、算力限制以及decoder-only模型在大量训练后展现出的更强文本理解能力。它还提到大模型历史中OpenAI与Google的发展路径影响了这一趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

现在的LLM的模型，都用的是 decoder的架构，没有用encoder的，之前的google开发出了bert，后续出的T5的模型，都是很经典的模型，在NLU上的效果都很好，为什么现在的LLM都不用encoder结构了呢？

答案

目前的bert这样的encoder架构的模型，都是用的是双向的架构，即模型在预训练的时候可以看到后面的结果。而以GPT为代表的decoder only 架构模型，用的是单向的架构，即后面的数据是看不到的。因此，在训练的时候，encoder的模型有着天然的优势——训练难度低。因此在训练数据量不够、算力不足、模型参数较小的情况下，encoder模型在NLU的任务上会好于decoder only模型。而当训练数据上来了之后，有了足够的算力，模型参数量级上来之后，通过高难度的训练的decoder only 模型，自然会优于 encoder 系列的模型。
也可以用一个形象的比喻来说，encoder的模型是在训练的时候一直在做完形填空，而decoder only的模型，在训练过程中，是一直在学习写作文。当大家学习的时间足够久，学习的次数足够多的时候，decoder only 这样一直在写作文的模型对文本的理解自然而然是更深的。
Decoder only 模型相当于是一直在做上限更高的学习任务，而encoder模型相当于做一个下限很高的任务。因此，当有足够资源的情况下，decoder only 效果更好也就说的过去了。
同时，也可以从大模型的历史来解释这个事情。在Transformer 架构出现以后，openai先提出了GPT 模型，也就是最开始的decoder only 架构的NLP 模型，而紧接着，google 推出了bert，bert在nlp的多项任务中都优于gpt。后续，openai陆续依据着decoder only 的技术路线，推出了gpt-2、 gpt-3、Instruct-GPT、chatgpt 以及gpt4等一系列模型，引领了LLM的风潮。所以，也可以认为是现在的LLM也是在延续着openai 关于decoder only 架构的开创，一直在这条路上，沿着openai的脚步在走。