Transformer 架构变种总结

虽然Transformer 论文Attention Is All You Need 为了翻译任务使用了transformer的编码器和解码器部分,但你可以将这些组件拆分开来进行架构的变化。

仅有编码器的模型也可以作为序列到序列模型,但如果没有进一步修改,输入序列和输出序列的长度相同。这种用法在今天已经不太常见,但通过向架构添加额外的层,你可以训练仅有编码器的模型来执行情感分析等分类任务,BERT就是一个仅有编码器的模型的例子。下图是仅有编码器的模型的示意图:

正如你在论文Attention Is All You Need所见,编码器-解码器模型在翻译等序列到序列任务上表现良好,其中输入序列和输出序列的长度可以不同。

你还可以扩展和训练这种类型的模型来执行通用文本生成任务。编码器-解码器模型的例子包括BART和T5。下图是编码器-解码器模型的示意图:

最后,仅有解码器的模型如今是最常用的之一。随着它们的扩展,它们的能力也在不断增强。这些模型现在可以泛化到大多数任务。流行的仅有解码器模型包括GPT系列模型、BLOOM、Jurassic、LLaMA等等。下图是仅有解码器的模型的示意图:

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值