Transformer 架构变种总结

祖国翔

已于 2024-04-17 11:13:31 修改

阅读量257

点赞数 2

分类专栏：自然语言处理机器学习文章标签： transformer 深度学习人工智能自然语言处理

于 2024-03-27 12:51:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42568832/article/details/137074044

版权

机器学习同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

自然语言处理

8 篇文章 0 订阅

订阅专栏

虽然Transformer 论文Attention Is All You Need 为了翻译任务使用了transformer的编码器和解码器部分，但你可以将这些组件拆分开来进行架构的变化。

仅有编码器的模型也可以作为序列到序列模型，但如果没有进一步修改，输入序列和输出序列的长度相同。这种用法在今天已经不太常见，但通过向架构添加额外的层，你可以训练仅有编码器的模型来执行情感分析等分类任务，BERT就是一个仅有编码器的模型的例子。下图是仅有编码器的模型的示意图：

正如你在论文Attention Is All You Need所见，编码器-解码器模型在翻译等序列到序列任务上表现良好，其中输入序列和输出序列的长度可以不同。

你还可以扩展和训练这种类型的模型来执行通用文本生成任务。编码器-解码器模型的例子包括BART和T5。下图是编码器-解码器模型的示意图：

最后，仅有解码器的模型如今是最常用的之一。随着它们的扩展，它们的能力也在不断增强。这些模型现在可以泛化到大多数任务。流行的仅有解码器模型包括GPT系列模型、BLOOM、Jurassic、LLaMA等等。下图是仅有解码器的模型的示意图：

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer 架构变种总结

虽然Transformer 论文Attention Is All You Need 为了翻译任务使用了transformer的编码器和解码器部分，但你可以将这些组件拆分开来进行架构的变化。仅有编码器的模型也可以作为序列到序列模型，编码器-解码器模型，仅有解码器的模型（如今是最常用的之一）。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。