【收藏必备】大语言模型(LLM)核心术语全解析：从训练到部署的完整指南

最新推荐文章于 2025-10-25 20:25:37 发布

AI小白熊

最新推荐文章于 2025-10-25 20:25:37 发布

阅读量694

点赞数 30

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理程序员 ai 转行产品经理

本文链接：https://blog.csdn.net/2401_85325726/article/details/151829312

在学习大语言模型（LLM）安全的过程中，好多术语记住不，所以整理了一份全链路核心术语表。旨在帮助开发者、研究者和AI爱好者快速理解LLM背后的关键概念，有需要的朋友可以收藏方便回看。

数据准备阶段

1. 数据集 (Dataset)

用于模型训练、验证和测试的结构化数据集合。数据集的规模、质量和多样性直接决定了模型最终的知识范围、能力表现及潜在偏见。

2. 数据清洗 (Data Cleaning)

提升数据质量的一系列预处理步骤。主要包括：移除广告、HTML标签等噪声；修正格式错误；过滤低质量、有害或不安全内容。数据清洗对训练的稳定性和模型的可靠性至关重要。

3. 去重 (Deduplication)

识别并移除数据集中完全相同或高度相似样本的过程。此举旨在防止模型对重复内容产生过拟合（死记硬背），确保评估指标能真实反映模型的泛化能力。

4. 数据污染 (Contamination)

指训练数据中包含了评估或测试集中的样本。这会导致模型在评测中表现虚高，因为它实际上是在“开卷考试”，无法真实衡量其对未知数据的处理能力。

5. 质量打分/过滤 (Quality Filtering)

一种自动化评估并筛选数据质量的流程。通常结合多种方法，如基于规则的启发式过滤（例如文本长度、特殊符号比例）和基于模型的打分（例如语言模型困惑度），以剔除低质量样本。

6. 分词器 (Tokenizer)

将原始文本分割成模型能够处理的基本单元（即 “Token”）的工具。分词是模型理解文本的第一步，其策略直接影响词表大小、计算效率以及对未知词的处理能力。

7. 词表 (Vocabulary)

一个包含了模型所认识的所有唯一 Token 的集合。在词表中，每个 Token 都被映射到一个固定的数字 ID，这是模型进行计算的基础。词表的大小是模型设计中的一个关键权衡点。

8. Token / 上下文窗口 (Context Window)

• Token: 经过分词器处理后得到的文本基本单元，可以是单词、子词或字符。
• 上下文窗口: 模型在单次处理中能够接收和理解的最大 Token 数量。它定义了模型能够处理的文本长度上限。

在这里插入图片描述

9. 语言检测 (Language ID)

自动识别文本所属自然语言的过程。在处理多语言数据时，这一步骤对于后续的分类、清洗和按比例采样至关重要。

10. PII 脱敏与合规

识别并移除或遮蔽数据中的个人身份信息（PII），如姓名、电话号码、地址等。这是保护用户隐私和遵守数据保护法规的关键步骤。

11. 数据混合与采样 (Mixture & Sampling)

将来自不同来源的数据（如网页、书籍、代码）按照预设比例组合成最终训练集的策略。通常会通过“过采样”增加高质量或特定领域数据的权重，以引导模型的学习方向。

12. 文本分块 (Chunking)

将长文档切分成符合模型上下文窗口长度限制的较小文本块的过程。分块策略对需要处理长文本的应用（如 RAG）的效果有重要影响。

13. 聊天模板 (Chat Template)

一种标准化的格式，用于将多轮对话（包含 system, user, assistant 等角色）转换为模型可以处理的单一字符串。确保训练和推理阶段使用相同的模板是模型正确遵循指令的关键。

14. 训练/验证/测试划分 (Train/Val/Test Split)

将数据集划分为三个独立的、不重叠的子集：

• 训练集 (Training Set): 用于模型参数的学习。
• 验证集 (Validation Set): 用于调整超参数和执行早停策略。
• 测试集 (Test Set): 仅在训练完成后用于对模型的最终性能进行一次性、无偏的评估。

模型架构与预训练阶段

15. Transformer

当前大语言模型的主流基础架构。其核心由多个堆叠的层构成，每层主要包含自注意力（Self-Attention）、前馈网络（Feed-Forward Network）和归一化层（Normalization Layer）。

16. 归一化层 (Normalization Layer)

Transformer 架构中稳定训练的关键组件，通常用于解决梯度消失或爆炸问题。目前主流模型多采用 RMSNorm 作为其实现方案。

17. 注意力 (Attention / MHA)

一种让模型能够动态计算上下文中每个部分对当前处理位置的重要程度的机制。它的核心是通过 查询 (Query, Q)、键 (Key, K) 和值 (Value, V) 三个向量来运作，聚合最相关的信息。

• 多头注意力 (MHA) 则是在多个独立的子空间中并行执行上述过程，使模型能同时关注到不同层面的信息（如语法与语义）。
• 挑战: O(n²) 的计算复杂度在处理长序列时开销巨大，因此工程上普遍采用 FlashAttention 等技术进行优化。

18. Q/K/V (查询/键/值)

注意力机制中用于计算的核心要素，是输入文本中每个 token 的三种不同向量表示：

• 查询 (Query): 代表当前焦点 token，主动去“查询”与上下文中其他 token 的关系。
• 键 (Key): 代表上下文中 token 的“可被查询”的特征，用于和 Query 计算相关性得分。
• 值 (Value): 代表该 token 实际包含的信息，将根据相关性得分进行加权聚合。

19. 自回归语言建模 (Causal LM)

模型的预训练目标，即根据已经出现的词序列，预测下一个最有可能的词。这个简单的目标在大规模数据上训练后，能使模型涌现出语法、知识乃至一定的推理能力。

20. 位置编码 (Positional Encoding)

为模型注入关于 token 在序列中位置（顺序）信息的技术。由于 Transformer 架构本身不感知顺序，位置编码是理解文本序列关系的基础。常见方案有 RoPE 和 ALiBi。

21. MQA / GQA (多查询/分组查询注意力)

注意力机制的一种优化变体。通过让多个查询头（Query heads）共享同一份键（Key）和值（Value），显著减少了 KV Cache 的显存占用，从而提升了模型处理长文本的推理效率。

22. 稀疏专家 (MoE, Mixture-of-Experts)

一种模型架构，它包含多个“专家”子网络。在处理每个输入时，一个路由网络会动态选择激活一小部分专家来进行计算。这使得模型可以用更少的计算量获得远超其参数规模的“等效容量”。

23. 并行训练 (Parallel Training)

将单个大模型扩展到多个 GPU 或多台机器上进行训练的技术。主要策略包括：

• 数据并行 (DP): 复制模型，切分数据。
• 张量并行 (TP): 切分模型内部的大型矩阵运算。
• 流水线并行 (PP): 将模型的不同层切分到不同设备上。
• ZeRO/FSDP: 对模型参数、梯度和优化器状态进行精细化切分。

24. 梯度检查点 (Activation Checkpointing)

一种以计算换显存的技术。它在前向传播过程中不保存所有中间计算结果（激活值），而是在反向传播时重新计算它们，从而大幅降低训练时的峰值显存占用。

25. 优化器 (Optimizer)

在训练过程中，根据损失函数的梯度来更新模型参数的算法。大语言模型训练普遍使用 AdamW 优化器，它在标准 Adam 算法的基础上改进了权重衰减的处理方式，有助于更好的泛化。

26. 学习率调度 (Learning Rate Schedule)

在训练过程中动态调整学习率的策略。典型的调度策略是“预热-衰减”（Warmup-Decay），即在训练初期使用一个较小的学习率并逐渐增加（预热），之后再随着训练的进行慢慢减小（如余弦衰减），以保证训练稳定收敛。

27. 高效注意力 (FlashAttention)

一种对标准注意力机制的底层优化实现。它通过融合计算内核、减少 GPU 高带宽显存（HBM）的读写次数，在数学等价的前提下，显著提升了训练和推理的速度并降低了显存消耗。

28. 计算最优扩展法则 (Chinchilla Scaling Laws)

一个指导大模型训练资源分配的原则。该法则指出，在固定的计算预算下，模型的性能不仅取决于参数量，更取决于训练数据的数量。最佳性能来自于模型大小和数据量的协同扩展，而非单纯增加模型参数。

模型微调阶段

29. 全量微调 (Full Fine-Tuning)

与**参数高效微调（PEFT）**相对，指在微调过程中更新模型全部参数的方法。效果通常最好，但需要巨大的计算资源和显存。

30. SFT (Supervised Fine-Tuning)

监督微调。使用高质量的“指令-回答”数据对，以监督学习的方式训练模型，使其初步具备遵循人类指令、格式和风格的能力。这是让模型变得“有用”的关键第一步。

31. RLHF (Reinforcement Learning from Human Feedback)

基于人类反馈的强化学习。通过人类对模型不同输出的偏好排序，训练一个奖励模型（Reward Model），然后利用这个奖励模型作为信号，通过强化学习算法（如 PPO）进一步优化语言模型，使其输出更符合人类偏好。

32. 奖励模型 (Reward Model)

在 RLHF 流程中，这是一个专门训练出来用于给模型输出打分的模型。它学习人类的偏好，并为强化学习提供数值奖励信号（Reward）。

33. DPO (Direct Preference Optimization)

直接偏好优化。一种替代 RLHF 的对齐技术，它绕过了训练独立奖励模型的步骤，直接利用偏好数据来调整语言模型的策略。DPO 通常比 RLHF 更简单、更稳定。

34. PEFT (Parameter-Efficient Fine-Tuning)

参数高效微调。一类只需训练模型一小部分参数的微调方法。代表技术包括 LoRA、QLoRA、Prompt Tuning 等。其优点是显著降低了训练所需的计算资源和显存。

35. LoRA / QLoRA

• LoRA: 一种主流的 PEFT 技术，它冻结预训练模型的主体权重，仅在模型层中注入并训练微小的、低秩的适配器矩阵。
• QLoRA: LoRA 的进一步优化，它在 4-bit 量化的模型基座上进行 LoRA 训练，从而在极低的显存下完成对超大模型的微调。

36. 安全对齐 (Safety Alignment)

通过特定的数据集和技术（如红队测试、宪法 AI），专门训练模型，旨在使其能够识别、拒绝或安全地回应有害、不道德或危险的指令，从而降低模型被滥用的风险。

37. 灾难性遗忘 (Catastrophic Forgetting)

指模型在学习新知识（如领域微调）后，遗忘了原先掌握的通用能力的现象。这是微调中需要重点关注和缓解的问题。

评估与部署阶段

38. 推理 (Inference)

指使用已经训练好的模型来生成文本或进行预测的过程。这个阶段的核心是优化速度（延迟）和计算效率（吞吐量）。

39. 吞吐量与延迟 (Throughput & Latency)

衡量推理服务性能的两个关键指标。延迟指单个请求从发送到收到完整回复的时间；吞吐量指单位时间内系统能处理的请求数（或生成的 token 数）。二者通常需要权衡。

40. 困惑度 (Perplexity, PPL)

衡量语言模型对其从未见过的文本的预测准确性的指标。PPL 越低，表示模型对该文本的语言结构越熟悉，预测能力越强。它常用于监控训练过程，但不完全等同于最终任务的性能。

41. 通用能力基准 (General Capability Benchmarks)

用于综合评估模型在多个维度上能力的标准化测试集。例如 MMLU（综合知识）、GSM8K（数学推理）、HumanEval（代码生成）等，它们的结果共同构成了对模型能力的全面评估。

42. 人工评估 (Human Evaluation)

由人类评估员根据一系列标准（如准确性、流畅性、安全性）对模型生成内容进行主观打分。对于开放式对话、创意写作等任务，人工评估是比自动化基准更可靠的“黄金标准”。

43. 量化 (Quantization)

将模型权重和激活值从高精度浮点数（如 FP16）转换为低精度整数（如 INT8, INT4）的过程。此举能显著减小模型体积、降低显存占用并加速推理，但可能带来轻微的精度损失。

44. KV Cache (键值缓存)

一种针对自回归模型推理的核心优化。它会缓存并复用已经计算过的 token 的注意力键（Key）和值（Value），避免了在生成每个新 token 时的重复计算，从而极大地提升了生成速度。

45. 推测式解码 (Speculative Decoding)

一种推理加速技术。它使用一个小型、快速的“草稿模型”预先生成一小段 token 序列，然后由大型主模型一次性地、并行地验证整个序列。如果验证通过，就能一次性接受多个 token，从而获得加速。

46. RAG (Retrieval-Augmented Generation)

检索增强生成。该技术首先从外部知识库（如向量数据库）中检索与用户问题相关的最新或专业信息，然后将这些信息作为上下文提供给语言模型，使其能够基于这些外部知识生成更准确、更具时效性的回答。

47. 工具/函数调用 (Tool/Function Calling)

赋予模型调用外部 API 或函数的能力。模型可以根据用户指令生成符合预定义格式的函数调用请求（如 JSON），从而查询数据库、调用计算器或与其他软件交互，极大地扩展了其应用场景。

其他核心概念

48. 涌现能力 (Emergent Abilities)

指模型在规模（参数量、数据量）达到一定阈值后，突然表现出的、在小规模模型上不存在或表现很差的能力，例如复杂的算术或逻辑推理。

49. 温度 (Temperature)

一个控制生成文本随机性的参数。温度值越高，模型输出越随机、越具创造性；温度值越低（甚至为0），输出越确定、越倾向于选择概率最高的词。

50. Top-k / Top-p 采样 (Top-k / Top-p Sampling)

与“温度”并列的常用解码策略。Top-k 是指在预测下一个词时，只从概率最高的 k 个词中进行采样；Top-p (又称 Nucleus Sampling) 则是从一个累积概率超过 p 值的最小词集中进行采样。

51. 上下文学习 (In-Context Learning, ICL)

模型在不更新任何参数的情况下，仅通过在提示（Prompt）中提供若干示例（few-shot）来学习并完成新任务的能力。这是大语言模型区别于传统模型的一个关键特性。

52. 提示工程 (Prompt Engineering)

设计和优化输入提示（Prompt）以引导模型产生期望输出的艺术和科学。有效的提示工程对于充分发挥模型能力至关重要。

53. 思维链 (Chain-of-Thought, CoT)

一种高级的提示工程技巧，通过引导模型在给出最终答案前，先输出一步一步的推理过程。这种方式能显著提升模型在复杂推理任务（如数学和逻辑问题）上的准确率。

54. 思维树 (Tree of Thoughts, ToT)

一种比思维链 (CoT) 更进一步的推理方法。它允许模型同时探索多个不同的推理路径（形成一棵“思维之树”），并在每个步骤中对路径进行自我评估和剪枝，从而在复杂的规划或解决问题任务中找到更优的解决方案。

55. MCP (Model Context Protocol)

模型上下文协议。这是一种用于结构化地组织和传递模型所需上下文信息的标准化规范。与传统的、非结构化的长文本提示不同，MCP 将上下文分解为明确的、有类型的组成部分。这种方式能显著提升复杂应用（尤其是多代理系统）的可靠性和可控性，其清晰的结构化有助于对不可信输入进行隔离和审查，从而辅助性地降低提示注入等安全风险。