比较Causal decoder、Prefix decoder和encoder-decoder

山顶夕景

已于 2023-11-14 21:44:21 修改

阅读量9.7k

点赞数 12

分类专栏：自然语言处理深度学习 # LLM大模型文章标签： LLM 自然语言处理大模型

于 2023-05-17 20:20:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35812205/article/details/130734021

版权

深度学习同时被 3 个专栏收录

144 篇文章

订阅专栏

118 篇文章

订阅专栏

自然语言处理

93 篇文章

订阅专栏

note：不同的语言模型通过attention mask设计，mask取全1就对应双向注意力，mask取下三角矩阵就对应单向注意力，我们可以只使用transformer encoder的情况下，自定义attention mask来兼容不同模型架构（如auto agressive单向注意力、auto encoding 双向注意力、encoder-decoder 解码器用单向注意力且用交叉注意力连接两者）：
在这里插入图片描述

如下图：
蓝色：the attention between prefix tokens
绿色：the attention between prefix and target tokens
黄色：the attention betweetn target tokens and masked attention
请添加图片描述

因果解码器（causal decoder，当前主流）：因果解码器架构采用单向注意力掩码，以确保每个输入标记只能关注过去的标记和它本身。输入和输出标记通过解码器以相同的方式进行处理。
- chatGPT等
- 因果解码器：GPT,BLOOM，Gopher等。
前缀解码器(prefix decoder)：前缀解码器结构修正了因果编码器的掩码机制，以使其能可对前缀标记执行双向注意力，并仅对生成的标记执行单向注意力。这样，与encoder-decoder类似，可以双向编码前缀序列并自回归低逐个预测输出标记，其中在编码和解码阶段共享相同的参数。现在前缀编码器的大模型包括U-PaLM、GLM-130B等。
编码器-解码器（encoder-decoder）：传统 Transformer 模型是建立在编码器-解码器架构上的，由两个 Transformer 块分别作为编码器和解码器。编码器采用堆叠的多头自注意层对输入序列进行编码以生成其潜在表示，而解码器对这些表示进行交叉注意并自回归地生成目标序列。目前，只有少数大语言模型是基于编码器-解码器架构构建的例如 Flan-T5。

Reference

[1] 为什么现在的LLM都是Decoder only的架构.某乎

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

山顶夕景 小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。