LLaMA v1/2模型结构总览

LLaMA v1/2模型结构总览

孟繁续

目录

收起

结构

Group Query Attention(V2 only)

RMSNorm

SwiGLU

RoPE

llama2 出来了,并且开源可商用,这下开源社区又要变天了。快速看一下官网以及paper,看看lla

### LLaMA2 模型架构图解析 #### 模型概述 LLaMA2 是 Meta 发布的一个大型语言模型系列,在原有基础上进行了多项改进。这些改进不仅体现在预训练使用的 token 数量增加上,还包括对模型架构本身的调整[^4]。 #### 架构特点 - **Group Query Attention (GQA)** GQA 的引入显著提升了模型效率和性能。这一机制允许查询在同一组内共享注意力计算资源,从而减少了冗余操作并提高了处理速度。 - **扩展的 Token 库** 预训练阶段使用了更多的 tokens,这使得 LLaMA2 能够学习到更加丰富的语义表示,进而增强了其理解和生成自然语言的能力。 #### 结构组件详解 1. **输入层** 输入文本经过分词器转换成 token 后进入模型。每个 token 对应一个唯一的 ID 编号,作为后续编码的基础。 2. **嵌入层(Embedding Layer)** 将离散化的 token IDs 映射至连续向量空间中的位置。此过程保留了词语间的相似性和上下文关系。 3. **多头自注意机制(Multi-head Self-Attention Mechanism)** 这一部分负责捕捉序列内部不同部分之间的依赖关系。通过多个平行运行的关注头来增强表达力,使模型可以同时关注不同的子模式。 4. **前馈神经网络(Feed Forward Neural Network, FFNN)** 经过自注意模块后的特征会被送入两层线性变换组成的全连接层中进一步加工。每层之间通常配有激活函数以引入非线性特性。 5. **Layer Normalization 层** 在每一层之后施加标准化操作有助于稳定梯度传播路径,加快收敛速率的同时防止数值溢出风险。 6. **输出层** 最终得到的结果会再次映回词汇表维度,并利用 Softmax 函数转化为概率分布形式给出预测结果。 7. **特殊之处——GQA 实现细节** - 查询分为若干个小组; - 每组内的所有查询共同作用于相同的一套键值对集合; - 不同组间保持独立运作互不干扰。 ```mermaid graph LR; A[Input Tokens] --> B(Embeddings); B --> C{Multi-Head<br>Self-Attention}; C --> D(Layer Norm); D --> E[FFNN]; E --> F(Layer Norm); F --> G(Output Probabilities); subgraph Grouped Queries within Multi-Head Self-Attention C -->|Query Groups| H(Keys & Values Sets); H --> I(Merged Outputs per Group); I --> J(Final Output Sequence); end ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值