大模型学习笔记 - LLM模型架构

JL_Jessie

已于 2024-07-21 10:43:08 修改

阅读量2.1k

点赞数 20

文章标签：架构

于 2024-07-20 22:40:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37531129/article/details/140578878

版权

LLM 模型架构

LLM 模型架构

1. LLM 核心模型 Transformer

这是《大语言模型》这本书的学习笔记。详细内容可以参考书籍。

目前主流的大模型都是基于Transformer模型进行设计的。Transformer是由多层的多头注意力模块（Multi-Head Self-Attention) 堆叠而成的神经网络模型。
原始的Transformer是由Encoder 和Decoder两部分构成，而这两部分是可以独立使用的(如BERT 单独使用Encoder, GPT单独使用Decoder).
大语言模型与早期的预训练语言模型相比，主要是使用了更长的向量维度、更深的层数、更大的数据集、进而包含了更大规模的模型参数。LLM主要使用Decoder 架构，对Transformer本身结构和配置改变不大。

关于Transformer的详细介绍可以参考我之前的学习笔记：Attention

输入端：x = v + p (词向量 + 位置编码)
1. 输入词元序列首先经过一个Embedding Module转成词向量。
2. 位置编码（由于Transformer无法识别序列顺序所以通过位置编码来表示序列中的位置）
  1. 位置编码也有绝对位置编码，相对位置编码。这个后续讨论。
多头注意力机制(MHA)
1. 多头注意力机制是Transfomer的核心技术，能够直接建模任意距离的词元之间的相互关系。之前RNN迭代利用前一个时刻状态更新当前时刻状态，在处理长文本时会出现梯度爆炸或消失的问题。在卷积神经网络中只有同一个卷积核的窗口中的词元可以直接交互，通过堆叠层数来实现远距离词元信息交互。
2. 多头注意力机制 = 多个自注意力模型组成。
  1. 每个模块将输入词元映射成Query,Key,Value 三个矩阵。然后对于每个query,与所有没有被mask的key计算点积，点积值除以 $\sqrt{D}$ (D是key的向量维度)，然后传入softmax中计算权重。权重与Value加权和得到最终输出。
  2. $Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{D}})V$ 其中 $Q=XW^Q$ , $K=XW^K$ , $V=XW^V$
  3. 多头注意力机制使用了 H 组结构相同但是参数不同的自注意模块。输入序列通过不同的权重映射为K Q V，每组KQV经过上面计算映射成一个Head得到自注意力输出,不同 Head 被拼接在一起，通过一个权重矩阵 $W^O$ (H*H)进行映射，产生最终的输出。 $MHA=Concat(head_1,..head_N)W^O$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。