大模型三种架构

微雨盈萍cbb

已于 2024-06-18 11:25:05 修改

阅读量299

点赞数 11

分类专栏：大模型文章标签：人工智能 nlp

于 2024-06-12 14:54:19 首次发布

本文链接：https://blog.csdn.net/SWZ156/article/details/139626724

版权

大模型专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了大模型的三种主要架构——encoder-only、decoder-only和encoder-decoder。BERT代表encoder-only模型，擅长理解和编码输入信息，适合情感分析和文本分类任务。GPT和Llama作为decoder-only模型，专长于生成连贯文本，适用于文本生成任务。而T5作为encoder-decoder模型，能处理复杂输入并生成相关输出，常见于机器翻译和文本摘要等领域。

摘要由CSDN通过智能技术生成

大模型进化树
在这里插入图片描述
灰色代表其他模型
粉色表示encoder-only
绿色代表encoder-decoder
蓝色代表decoder-only

1.encoder-only
代表的有google的bert模型。专注于理解和编码输入信息，常用于分类、标注等任务
优点：强大的理解能力：能够有效处理和理解输入数据。
缺点：生成能力有限：不擅长自主生成文本或内容。
适用场景：情感分析，文本分类任务。

2.decoder-only
代表的有openai的GPT，meta的Llama。在Decoder-Only模型架构中，模型只包含一个解码器，没有编码器。优点：专注于生成部分，能够生成连贯、有创造性的文本，灵活性高。
缺点：理解能力较差，不擅长理解复杂的输入。
适用场景；常用于生成任务。

3.encoder-decoder
代表的有Google的T5模型，清华的GLM。利用编码器对输入序列进行编码，提取其特征和语义信息，并将编码结果传递给解码器。然后，解码器根据编码结果生成相应的输出序列。
优点：灵活强大：能够理解复杂输入并生成相关输出。缺点：架构复杂：相比单一的Encoder或Decoder，它更复杂。需要更多的数据和计算资源。
适用于复杂任务：如机器翻译、文本摘要等。