【大模型】llama系列模型基础

idiotyi

已于 2024-08-29 10:48:49 修改

阅读量734

点赞数 9

分类专栏：大模型文献阅读文章标签： llama

于 2024-08-28 22:18:28 首次发布

本文链接：https://blog.csdn.net/idiotyi/article/details/141641350

版权

7 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

前言：llama基于transformer架构，与GPT相似，只用了transformer的解码器部分。本文主要是关于llama，llama2和llama3的结构解读。

1. llama

在这里插入图片描述
由self-attention和mlp堆叠形成，相比较transformer结构主要区别有三个：

位置编码：transformer使用的绝对位置编码，llama使用的RoPE（旋转位置编码），对Q和K使用
归一化: transformer使用的layernorm在子层输出后，llama使用的RMSNorm 归一化函数，对子层的输入进行了归一化。pre-layer-norm使得训练更稳定，但是post-layer-norm使得模型具有更强的表达力。
激活函数：用 SwiGLU 激活函数替换 ReLU 非线性，以提高性能。

RoPE的目标是找到一种函数，实现以下功能：
在这里插入图片描述

论文中提出了一种形式如下：
在这里插入图片描述
${f_q和f_k}$ 可以表示为：

最终：

扩展到多维：

Rope最终公式：

计算公式：sigmoid（x）*x
结合了GLU和SiLU的优点。

表达能力更强
SwiGLU 通过在激活函数前引入门控机制（GLU），允许模型在特定条件下选择性地激活或抑制某些神经元，从而增强模型的非线性表达能力。这对于处理复杂的数据模式特别有效。
梯度流动更稳定
SwiGLU 在使用 SiLU 激活函数时，由于其平滑的曲线和非饱和性质，有助于保持稳定的梯度流动，避免梯度消失或爆炸的情况。这使得在训练深度神经网络时，模型能够更容易地收敛。
适应性更强
SwiGLU 的门控机制使得模型可以根据输入特征的不同，自适应地调整激活的强度。这种灵活性有助于在不同的输入条件下，模型能够选择最优的特征表示，从而提高整体性能。
提高计算效率
SwiGLU 的设计相对简单，计算复杂度较低，因此在大型模型或需要高计算效率的场景中，能够提供较好的性能提升，同时不会显著增加计算成本。

包含7B、13B和70B。其中，7B和13B沿用了Llama 1的经典架构，而70B模型则采用了创新的分组查询注意力（GQA）架构，相较于Llama 1，Llama 2的预训练语料增加了40%。整体结构基本与llama1相似，但是新增了GQA架构，与llama1相比主要优势：

扩展上下文长度：Llama 2 模型提供 4,096 个令牌的上下文长度，是 LLaMa 1 的两倍。上下文长度（或上下文窗口）是指模型在推理（即生成文本或正在进行的对话）期间“记住”的最大令牌数。这样，自然语言就更加复杂，交流也更加连贯流畅。
提高可访问性：LLaMa 1 专为研究用途而发布，而 Llama 2 可供任何组织（活跃用户少于 7 亿）使用。
更强大的训练：Llama 2 使用增加 40% 的数据进行预训练，增强其知识库和上下文理解。此外，与 LLaMa 1 不同，Llama 2 聊天模型使用基于人类反馈的强化学习 (RLHF) 进行微调，有助于更好地将模型响应与人类期望保持一致。

一种在大型语言模型 (LLM) 中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法，它的目标是在保持 MQA 速度的同时实现 MHA 的质量。
在这里插入图片描述

核心思想：训练阶段，如果直接用人的偏好（或者说人的反馈）来对模型整体的输出结果计算reward或loss，显然是要比上面传统的“给定上下文，预测下一个词”的损失函数合理的多。

主要包含三个步骤：

收集样本预训练模型
常规的有监督训练
训练奖励模型
用多个模型（可以是初始模型、finetune模型和人工等等）给出问题的多个回答，然后人工给这些问答对按一些标准（可读性、无害、正确性blabla）进行排序（打分的话标注员差异太大），用排序数据训练一个奖励模型/偏好模型来打分（reward model）。对响应进行排名多半比编写响应更简单。
训练强化学习策略，微调 LM
用强化学习做LM训练的一种思路是用Policy Gradient做，这一块OpenAI用的是他们在17年提出的PPO算法，即Proximal Policy Optimization。