大模型三种架构

本文介绍了大模型的三种主要架构——encoder-only、decoder-only和encoder-decoder。BERT代表encoder-only模型,擅长理解和编码输入信息,适合情感分析和文本分类任务。GPT和Llama作为decoder-only模型,专长于生成连贯文本,适用于文本生成任务。而T5作为encoder-decoder模型,能处理复杂输入并生成相关输出,常见于机器翻译和文本摘要等领域。
摘要由CSDN通过智能技术生成

大模型进化树
在这里插入图片描述
灰色代表其他模型
粉色表示encoder-only
绿色代表encoder-decoder
蓝色代表decoder-only

1.encoder-only
代表的有google的bert模型。专注于理解和编码输入信息,常用于分类、标注等任务
优点:强大的理解能力:能够有效处理和理解输入数据。
缺点:生成能力有限:不擅长自主生成文本或内容。
适用场景:情感分析,文本分类任务。

2.decoder-only
代表的有openai的GPT,meta的Llama。在Decoder-Only模型架构中,模型只包含一个解码器,没有编码器。优点:专注于生成部分,能够生成连贯、有创造性的文本,灵活性高。
缺点:理解能力较差,不擅长理解复杂的输入。
适用场景;常用于生成任务。

3.encoder-decoder
代表的有Google的T5模型,清华的GLM。利用编码器对输入序列进行编码,提取其特征和语义信息,并将编码结果传递给解码器。然后,解码器根据编码结果生成相应的输出序列。
优点:灵活强大:能够理解复杂输入并生成相关输出。缺点:架构复杂:相比单一的Encoder或Decoder,它更复杂。需要更多的数据和计算资源。
适用于复杂任务:如机器翻译、文本摘要等。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值