LLM模型推理入门：术语解释、LLM推理基础知识（Transformer）

AI老皮

已于 2024-09-12 14:20:58 修改

阅读量637

点赞数 12

文章标签： transformer 深度学习人工智能大模型 ai AI大模型 LLM

于 2024-09-11 07:00:00 首次发布

本文链接：https://blog.csdn.net/m0_59614665/article/details/142109398

版权

一、术语解释

词元（Token）：在自然语言处理中，词元是文本数据的最小单位。它可以是一个词、一部分词、一个字符，或者是一个子词。词元化是将文本拆分成这些最小单位的过程，以便于计算机处理和分析。
预填充阶段（Prefilling）：在 LLM 推理过程中，预填充阶段是指模型在收到输入序列后，生成第一个输出词元之前的计算过程。
解码阶段（Decoding）：解码阶段是指在预填充阶段生成第一个词元后，模型通过迭代生成后续词元的过程，直到生成结束标志或达到最大序列长度。
自注意力机制（Self-Attention Mechanism）：Transformer 模型中的一种机制，通过计算输入序列中不同部分的重要性，使模型能够在生成过程中聚焦于输入序列的不同部分。
前馈网络（Feed-Forward Network, FFN）：Transformer 模型中的组件，包含两个线性变换和一个非线性激活函数，能够增加模型的非线性表达能力。
多头注意力机制（Multi-Head Attention）：Transformer 模型中的一种机制，通过在不同的表示空间中同时关注输入序列的不同部分，提高模型的表现力。
位置编码（Position Encoding）：在 Transformer 模型中，位置编码为序列中的每个词元添加位置信息，使模型能够识别输入序列中的相对位置关系。
量化（Quantization）：通过减少表示模型权重和激活值的比特位数来降低计算成本和内存占用的一种技术。
模型并行（Model Parallelism）：一种将模型的不同部分分配到多个设备上并行计算的方法，用于加速推理过程。
数据并行（Data Parallelism）：一种将不同的数据样本分配到多个设备上并行处理的方法，用于提高处理速度。
网络剪枝（Network Pruning）：通过移除模型中不重要的参数来减少模型大小和计算需求的一种技术。

二、LLM 推理基础知识

01 Transformer 介绍

当前主流的 LLM 比如 OpenAI 的 GPT 系列、Meta 的 Llama 系列还有如 OPT、BLOOM、Mistral 等等，其核心是基于自注意力机制的 Transformer 架构，该机制允许模型在做出预测时对输入数据的不同部分的重要性进行权重计算

在这里插入图片描述

自注意力机制

在 Transformer 模型中，自注意力机制通过线性变换计算输入序列 X 的查询 Q、键 K 和值 V。自注意力分数计算公式如下：
在这里插入图片描述

其中 dk 是键的维度。该机制使模型能够对输出的每个元素聚焦于输入序列的不同部分，从而捕捉输入序列中不同位置之间的复杂依赖关系。

前馈网络（FFN）

Transformer 的每一层中都包含前馈网络（FFN），显著增加了计算强度。FFN 通常由两个线性变换和一个非线性激活函数（通常是 ReLU）组成，公式如下：

在这里插入图片描述
其中 W1, W2, b1, b2 是可学习参数。FFN 引入了必要的非线性，使模型能够学习更复杂的模式。每个 Transformer 层在多头注意力（MHA）聚合输入的不同部分的信息后，FFN 会独立地处理这些聚合信息。

Transformer 其他组件

Transformer 模型还包括其他关键组件，如位置编码（position encoding），它为序列中的每个标记添加位置信息；多头注意力机制（multi-head attention），允许模型在不同的表示空间中关注序列的不同部分。这些组件共同作用，使得 Transformer 模型能够捕捉广泛的语言上下文和细微差别，在各种 NLP 任务中设立了新的基准。

02 LLM 推理过程：预填充 + 解码

在介绍完 Transformer 结构之后，我们来看下 Decoder-Only 的模型如何进行模型推理。为简单起见，我们假设一次只处理一个序列（即批处理大小为 1）。在下图中，我描述了一个简单的基于 Transformer 的解码器的主要层，用于从一系列输入词元中生成输出词元。在这里插入图片描述
需要注意的是，解码器本身并不会输出词元，而是输出 logit（其数量与词汇表大小相同）。输出 logit 的最后一层通常被称为语言模型头（Language Model Head）或 LM 头。将 logit 转换为词元是通过一种启发式算法来完成的，这种算法通常被称为解码策略（decoding strategy），也叫做词元搜索策略（token search strategy）或生成策略（generation strategy）。解码策略的目的是在保持文本连贯性和合理性的同时，提高生成结果的质量和多样性。

简单起见，我们假设解码策略是模型的一部分，这些接受词元序列作为输入，并返回相应输出词元的实体通常被称为执行引擎或推理引擎。

如果要生成多个词元呢？使用基于 Transformer 的解码器，从一个输入文本序列（称为 prompt）中生成文本（称为 completion）通常包含以下步骤：

将模型权重加载到 GPU。
在 CPU 上对输入文本进行分词，并将文本序列词元传输到 GPU。
利用模型运行输入词元，输出第一个词元（预填充阶段）。

在这里插入图片描述

将生成的词元添加到输入的词元序列中，然后作为新的输入，生成下一个词元，直到生成停止词元（比如 EOS）或者到达预先配置的最大序列长度（解码阶段）。
将生成的词元传输到 CPU，并进行逆词元化（de-tokenization）获得生成的文本。

上述介绍了最基础的 LLM 推理过程，目前也有一些更为先进的技术，流程上可能会有所不同。