1、主流架构
目前LLM(Large Language Model)主流结构包括三种范式,分别为Encoder-Decoder、Causal Decoder、Prefix Decode。对应的网络整体结构和Attention掩码如下图。

、

各自特点、优缺点如下:
1)Encoder-Decoder
结构特点:输入双向注意力,输出单向注意力。
代表模型:T5、Flan-T5、BART。
适用任务:在偏理解的 NLP 任务上效果好。
优点:在输入上采用双向注意力
这篇博客汇总了大模型的基础知识,包括主流架构、训练流程、tokenizer和embedding等核心概念,深入探讨了模型幻觉、位置编码、多模态大模型以及微调策略等内容,还涵盖了Post Norm与Pre Norm的区别、强化学习的应用以及量化技术等重要主题。
订阅专栏 解锁全文
1490

被折叠的 条评论
为什么被折叠?



