大模型面试题 - 你知道为什么当前大模型/生成式语言模型大多都是decoder only的吗？ transformer中的encoder和decoder有什么区别，请详细说明

AI生成曾小健

已于 2024-04-06 20:59:05 修改

阅读量1.1k

点赞数 7

分类专栏：大语言模型LLM 大模型LLM面试指南文章标签：语言模型 transformer 人工智能

于 2024-04-06 20:47:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37574187/article/details/137437734

版权

大模型LLM面试指南同时被 2 个专栏收录

32 篇文章 2 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大语言模型LLM

441 篇文章 91 订阅

订阅专栏

你知道为什么当前大模型/生成式语言模型大多都是decoder only的吗？ transformer中的encoder和decoder有什么区别，请详细说明

Claude-3-Opus

Poe

当前大模型和生成式语言模型大多采用decoder-only结构,主要有以下几个原因:

生成任务的特点:语言模型的主要任务是根据前文生成下一个词或句子。这实际上是一个序列生成问题,而不是序列到序列的转换问题。Decoder天然适合处理这种自回归的生成任务。
参数效率:如果使用encoder-decoder结构,需要同时训练两个模块,参数量会显著增加。而decoder-only结构可以用相同的参数量训练更深的网络,有利于提高模型容量和性能。
预训练和微调的灵活性:decoder-only结构可以方便地进行语言模型预训练,然后通过prompt engineering等方式应用到下游任务。相比之下,encoder-decoder在不同任务之间的迁移和微调较为困难。
训练和推理的速度:由于省去了

了解本专栏

超级会员免费看

AI生成曾小健

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
大模型面试题 - 你知道为什么当前大模型/生成式语言模型大多都是decoder only的吗？ transformer中的encoder和decoder有什么区别，请详细说明

你知道为什么当前大模型/生成式语言模型大多都是decoder only的吗？transformer中的encoder和decoder有什么区别，请详细说明Poe当前大模型和生成式语言模型大多采用decoder-only结构,主要有以下几个原因:生成任务的特点:语言模型的主要任务是根据前文生成下一个词或句子。这实际上是一个序列生成问题,而不是序列到序列的转换问题。Decoder天然适合处理这种自回归的生成任务。参数效率:如果使用encoder-decoder结构,需要。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI生成曾小健 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。