大模型的架构演进史——为什么Decoder-Only成为最终的胜利者

大模型的架构

在这里插入图片描述

encoder only

使用encoder-only的模型主要的思路是通过编码器,将大量文本、时序数据等资料进行编码、压缩,达到进一步抽象理解输入数据的能力。

encoder-only模型,特点侧重于:

理解分类输入信息,比如判断一段文本的感情倾向,或者文本主题分类。这种架构主要用于处理输入数据,专注于理解和编码信息,而不是生成新的文本。Encoder-Only模型在理解分类任务中更为有效,例如文本分类、情感分析等

decoder noly

使用decoder-only的模型主要是通过解码器,对已输入的信息进行解码衍生。

decoder-only模型,特点侧重于:

擅长创造性的写作,比如写小说或自动生成文章。它更多关注于从已有的信息(开头)扩展出新的内容。

OpenAI 选择了Decoder-Only方案(如GPT系列),因为它对于自然语言生成特别有效。这种架构能够更好地理解预测语言模式,尤其适合处理开放式的、生成性的任务。

encoder-decoder

基于encoder-decoder结构的模型,同时能够编码和解码对应的输入信息。

encoder-decoder结构的模型,特点侧重于:

擅长处理需要理解输入然后生成相关输出的任务,比如翻译问答系统。

这种模型在需要深入理解输入内容并生成相关响应的任务中表现良好,例如机器翻译、问答系统等。

为什么现在decoder-only为主流

  1. decoder-only和encoder-decoder结构相比,有什么优势?
    相比较而言,decoder-only需要的计算资源更少,能够更快学习和训练得到最终的模型。

  2. decoder-only和encoder-only结构相比,有什么优势?

. decoder-only和encoder-only结构相比,有什么优势?

encoder-only更加侧重于对信息的压缩与分类,在对输入内容进行扩展的情况下效果不佳。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

alstonlou

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值