在学习大语言模型(LLM)安全的过程中,好多术语记住不,所以整理了一份全链路核心术语表。旨在帮助开发者、研究者和AI爱好者快速理解LLM背后的关键概念,有需要的朋友可以收藏方便回看。
数据准备阶段
1. 数据集 (Dataset)
用于模型训练、验证和测试的结构化数据集合。数据集的规模、质量和多样性直接决定了模型最终的知识范围、能力表现及潜在偏见。
2. 数据清洗 (Data Cleaning)
提升数据质量的一系列预处理步骤。主要包括:移除广告、HTML标签等噪声;修正格式错误;过滤低质量、有害或不安全内容。数据清洗对训练的稳定性和模型的可靠性至关重要。
3. 去重 (Deduplication)
识别并移除数据集中完全相同或高度相似样本的过程。此举旨在防止模型对重复内容产生过拟合(死记硬背),确保评估指标能真实反映模型的泛化能力。
4. 数据污染 (Contamination)
指训练数据中包含了评估或测试集中的样本。这会导致模型在评测中表现虚高,因为它实际上是在“开卷考试”,无法真实衡量其对未知数据的处理能力。
5. 质量打分/过滤 (Quality Filtering)
一种自动化评估并筛选数据质量的流程。通常结合多种方法,如基于规则的启发式过滤(例如文本长度、特殊符号比例)和基于模型的打分(例如语言模型困惑度),以剔除低质量样本。
6. 分词器 (Tokenizer)
将原始文本分割成模型能够处理的基本单元(即 “Token”)的工具。分词是模型理解文本的第一步,其策略直接影响词表大小、计算效率以及对未知词的处理能力。
7. 词表 (Vocabulary)
一个包含了模型所认识的所有唯一 Token 的集合。在词表中,每个 Token 都被映射到一个固定的数字 ID,这是模型进行计算的基础。词表的大小是模型设计中的一个关键权衡点。
8. Token / 上下文窗口 (Context Window)
- • Token: 经过分词器处理后得到的文本基本单元,可以是单词、子词或字符。
- • 上下文窗口: 模型在单次处理中能够接收和理解的最大 Token 数量。它定义了模型能够处理的文本长度上限。

9. 语言检测 (Language ID)
自动识别文本所属自然语言的过程。在处理多语言数据时,这一步骤对于后续的分类、清洗和按比例采样至关重要。
10. PII 脱敏与合规
识别并移除或遮蔽数据中的个人身份信息(PII),如姓名、电话号码、地址等。这是保护用户隐私和遵守数据保护法规的关键步骤。
11. 数据混合与采样 (Mixture & Sampling)
将来自不同来源的数据(如网页、书籍、代码)按照预设比例组合成最终训练集的策略。通常会通过“过采样”增加高质量或特定领域数据的权重,以引导模型的学习方向。
12. 文本分块 (Chunking)
将长文档切分成符合模型上下文窗口长度限制的较小文本块的过程。分块策略对需要处理长文本的应用(如 RAG)的效果有重要影响。
13. 聊天模板 (Chat Template)
一种标准化的格式,用于将多轮对话(包含 system, user, assistant 等角色)转换为模型可以处理的单一字符串。确保训练和推理阶段使用相同的模板是模型正确遵循指令的关键。
14. 训练/验证/测试划分 (Train/Val/Test Split)
将数据集划分为三个独立的、不重叠的子集:
- • 训练集 (Training Set): 用于模型参数的学习。
- • 验证集 (Validation Set): 用于调整超参数和执行早停策略。
- • 测试集 (Test Set): 仅在训练完成后用于对模型的最终性能进行一次性、无偏的评估。
模型架构与预训练阶段
15. Transformer
当前大语言模型的主流基础架构。其核心由多个堆叠的层构成,每层主要包含自注意力(Self-Attention)、前馈网络(Feed-Forward Network)和归一化层(Normalization Layer)。
16. 归一化层 (Normalization Layer)
Transformer 架构中稳定训练的关键组件,通常用于解决梯度消失或爆炸问题。目前主流模型多采用 RMSNorm 作为其实现方案。
17. 注意力 (Attention / MHA)
一种让模型能够动态计算上下文中每个部分对当前处理位置的重要程度的机制。它的核心是通过 查询 (Query, Q)、键 (Key, K) 和 值 (Value, V) 三个向量来运作,聚合最相关的信息。
- • 多头注意力 (MHA) 则是在多个独立的子空间中并行执行上述过程,使模型能同时关注到不同层面的信息(如语法与语义)。
- • 挑战: O(n²) 的计算复杂度在处理长序列时开销巨大,因此工程上普遍采用 FlashAttention 等技术进行优化。
18. Q/K/V (查询/键/值)
注意力机制中用于计算的核心要素,是输入文本中每个 token 的三种不同向量表示:
- • 查询 (Query): 代表当前焦点 token,主动去“查询”与上下文中其他 token 的关系。
- • 键 (Key): 代表上下文中 token 的“可被查询”的特征,用于和 Query 计算相关性得分。
- • 值 (Value): 代表该 token 实际包含的信息,将根据相关性得分进行加权聚合。
19. 自回归语言建模 (Causal LM)
模型的预训练目标,即根据已经出现的词序列,预测下一个最有可能的词。这个简单的目标在大规模数据上训练后,能使模型涌现出语法、知识乃至一定的推理能力。
20. 位置编码 (Positional Encoding)
为模型注入关于 token 在序列中位置(顺序)信息的技术。由于 Transformer 架构本身不感知顺序,位置编码是理解文本序列关系的基础。常见方案有 RoPE 和 ALiBi。
21. MQA / GQA (多查询/分组查询注意力)
注意力机制的一种优化变体。通过让多个查询头(Query heads)共享同一份键(Key)和值(Value),显著减少了 KV Cache 的显存占用,从而提升了模型处理长文本的推理效率。
22. 稀疏专家 (MoE, Mixture-of-Experts)
一种模型架构,它包含多个“专家”子网络。在处理每个输入时,一个路由网络会动态选择激活一小部分专家来进行计算。这使得模型可以用更少的计算量获得远超其参数规模的“等效容量”。
23. 并行训练 (Parallel Training)
将单个大模型扩展到多个 GPU 或多台机器上进行训练的技术。主要策略包括:
- • 数据并行 (DP): 复制模型,切分数据。
- • 张量并行 (TP): 切分模型内部的大型矩阵运算。
- • 流水线并行 (PP): 将模型的不同层切分到不同设备上。
- • ZeRO/FSDP: 对模型参数、梯度和优化器状态进行精细化切分。
24. 梯度检查点 (Activation Checkpointing)
一种以计算换显存的技术。它在前向传播过程中不保存所有中间计算结果(激活值),而是在反向传播时重新计算它们,从而大幅降低训练时的峰值显存占用。
25. 优化器 (Optimizer)
在训练过程中,根据损失函数的梯度来更新模型参数的算法。大语言模型训练普遍使用 AdamW 优化器,它在标准 Adam 算法的基础上改进了权重衰减的处理方式,有助于更好的泛化。
26. 学习率调度 (Learning Rate Schedule)
在训练过程中动态调整学习率的策略。典型的调度策略是“预热-衰减”(Warmup-Decay),即在训练初期使用一个较小的学习率并逐渐增加(预热),之后再随着训练的进行慢慢减小(如余弦衰减),以保证训练稳定收敛。
27. 高效注意力 (FlashAttention)
一种对标准注意力机制的底层优化实现。它通过融合计算内核、减少 GPU 高带宽显存(HBM)的读写次数,在数学等价的前提下,显著提升了训练和推理的速度并降低了显存消耗。
28. 计算最优扩展法则 (Chinchilla Scaling Laws)
一个指导大模型训练资源分配的原则。该法则指出,在固定的计算预算下,模型的性能不仅取决于参数量,更取决于训练数据的数量。最佳性能来自于模型大小和数据量的协同扩展,而非单纯增加模型参数。
模型微调阶段
29. 全量微调 (Full Fine-Tuning)
与**参数高效微调(PEFT)**相对,指在微调过程中更新模型全部参数的方法。效果通常最好,但需要巨大的计算资源和显存。
30. SFT (Supervised Fine-Tuning)
监督微调。使用高质量的“指令-回答”数据对,以监督学习的方式训练模型,使其初步具备遵循人类指令、格式和风格的能力。这是让模型变得“有用”的关键第一步。
31. RLHF (Reinforcement Learning from Human Feedback)
基于人类反馈的强化学习。通过人类对模型不同输出的偏好排序,训练一个奖励模型(Reward Model),然后利用这个奖励模型作为信号,通过强化学习算法(如 PPO)进一步优化语言模型,使其输出更符合人类偏好。
32. 奖励模型 (Reward Model)
在 RLHF 流程中,这是一个专门训练出来用于给模型输出打分的模型。它学习人类的偏好,并为强化学习提供数值奖励信号(Reward)。
33. DPO (Direct Preference Optimization)
直接偏好优化。一种替代 RLHF 的对齐技术,它绕过了训练独立奖励模型的步骤,直接利用偏好数据来调整语言模型的策略。DPO 通常比 RLHF 更简单、更稳定。
34. PEFT (Parameter-Efficient Fine-Tuning)
参数高效微调。一类只需训练模型一小部分参数的微调方法。代表技术包括 LoRA、QLoRA、Prompt Tuning 等。其优点是显著降低了训练所需的计算资源和显存。
35. LoRA / QLoRA
- • LoRA: 一种主流的 PEFT 技术,它冻结预训练模型的主体权重,仅在模型层中注入并训练微小的、低秩的适配器矩阵。
- • QLoRA: LoRA 的进一步优化,它在 4-bit 量化的模型基座上进行 LoRA 训练,从而在极低的显存下完成对超大模型的微调。
36. 安全对齐 (Safety Alignment)
通过特定的数据集和技术(如红队测试、宪法 AI),专门训练模型,旨在使其能够识别、拒绝或安全地回应有害、不道德或危险的指令,从而降低模型被滥用的风险。
37. 灾难性遗忘 (Catastrophic Forgetting)
指模型在学习新知识(如领域微调)后,遗忘了原先掌握的通用能力的现象。这是微调中需要重点关注和缓解的问题。
评估与部署阶段
38. 推理 (Inference)
指使用已经训练好的模型来生成文本或进行预测的过程。这个阶段的核心是优化速度(延迟)和计算效率(吞吐量)。
39. 吞吐量与延迟 (Throughput & Latency)
衡量推理服务性能的两个关键指标。延迟指单个请求从发送到收到完整回复的时间;吞吐量指单位时间内系统能处理的请求数(或生成的 token 数)。二者通常需要权衡。
40. 困惑度 (Perplexity, PPL)
衡量语言模型对其从未见过的文本的预测准确性的指标。PPL 越低,表示模型对该文本的语言结构越熟悉,预测能力越强。它常用于监控训练过程,但不完全等同于最终任务的性能。
41. 通用能力基准 (General Capability Benchmarks)
用于综合评估模型在多个维度上能力的标准化测试集。例如 MMLU(综合知识)、GSM8K(数学推理)、HumanEval(代码生成)等,它们的结果共同构成了对模型能力的全面评估。
42. 人工评估 (Human Evaluation)
由人类评估员根据一系列标准(如准确性、流畅性、安全性)对模型生成内容进行主观打分。对于开放式对话、创意写作等任务,人工评估是比自动化基准更可靠的“黄金标准”。
43. 量化 (Quantization)
将模型权重和激活值从高精度浮点数(如 FP16)转换为低精度整数(如 INT8, INT4)的过程。此举能显著减小模型体积、降低显存占用并加速推理,但可能带来轻微的精度损失。
44. KV Cache (键值缓存)
一种针对自回归模型推理的核心优化。它会缓存并复用已经计算过的 token 的注意力键(Key)和值(Value),避免了在生成每个新 token 时的重复计算,从而极大地提升了生成速度。
45. 推测式解码 (Speculative Decoding)
一种推理加速技术。它使用一个小型、快速的“草稿模型”预先生成一小段 token 序列,然后由大型主模型一次性地、并行地验证整个序列。如果验证通过,就能一次性接受多个 token,从而获得加速。
46. RAG (Retrieval-Augmented Generation)
检索增强生成。该技术首先从外部知识库(如向量数据库)中检索与用户问题相关的最新或专业信息,然后将这些信息作为上下文提供给语言模型,使其能够基于这些外部知识生成更准确、更具时效性的回答。
47. 工具/函数调用 (Tool/Function Calling)
赋予模型调用外部 API 或函数的能力。模型可以根据用户指令生成符合预定义格式的函数调用请求(如 JSON),从而查询数据库、调用计算器或与其他软件交互,极大地扩展了其应用场景。
其他核心概念
48. 涌现能力 (Emergent Abilities)
指模型在规模(参数量、数据量)达到一定阈值后,突然表现出的、在小规模模型上不存在或表现很差的能力,例如复杂的算术或逻辑推理。
49. 温度 (Temperature)
一个控制生成文本随机性的参数。温度值越高,模型输出越随机、越具创造性;温度值越低(甚至为0),输出越确定、越倾向于选择概率最高的词。
50. Top-k / Top-p 采样 (Top-k / Top-p Sampling)
与“温度”并列的常用解码策略。Top-k 是指在预测下一个词时,只从概率最高的 k 个词中进行采样;Top-p (又称 Nucleus Sampling) 则是从一个累积概率超过 p 值的最小词集中进行采样。
51. 上下文学习 (In-Context Learning, ICL)
模型在不更新任何参数的情况下,仅通过在提示(Prompt)中提供若干示例(few-shot)来学习并完成新任务的能力。这是大语言模型区别于传统模型的一个关键特性。
52. 提示工程 (Prompt Engineering)
设计和优化输入提示(Prompt)以引导模型产生期望输出的艺术和科学。有效的提示工程对于充分发挥模型能力至关重要。
53. 思维链 (Chain-of-Thought, CoT)
一种高级的提示工程技巧,通过引导模型在给出最终答案前,先输出一步一步的推理过程。这种方式能显著提升模型在复杂推理任务(如数学和逻辑问题)上的准确率。
54. 思维树 (Tree of Thoughts, ToT)
一种比思维链 (CoT) 更进一步的推理方法。它允许模型同时探索多个不同的推理路径(形成一棵“思维之树”),并在每个步骤中对路径进行自我评估和剪枝,从而在复杂的规划或解决问题任务中找到更优的解决方案。
55. MCP (Model Context Protocol)
模型上下文协议。这是一种用于结构化地组织和传递模型所需上下文信息的标准化规范。与传统的、非结构化的长文本提示不同,MCP 将上下文分解为明确的、有类型的组成部分。这种方式能显著提升复杂应用(尤其是多代理系统)的可靠性和可控性,其清晰的结构化有助于对不可信输入进行隔离和审查,从而辅助性地降低提示注入等安全风险。
56. ReAct (推理与行动)
一个结合了思维链 (CoT) 和工具调用 (Tool Calling) 的强大框架。模型首先进行“推理”来制定行动计划,然后执行“行动”(如调用搜索API),接着“观察”行动结果,并根据观察再次进行推理,形成一个“推理-行动-观察”的循环,使其能解决需要与外部世界交互的复杂任务。
57. 幻觉 (Hallucination)
指模型生成了看似合理但实际上与事实不符、凭空捏造或逻辑错误的信息。缓解幻觉是当前大语言模型研究和应用中的一个核心挑战。
58. 偏见与毒性 (Bias & Toxicity)
模型可能从训练数据中学习并复现社会中的刻板印象、偏见或有害言论。通过数据清洗、安全对齐和内容审核等手段来减轻这些问题是模型安全的重要组成部分。
59. 提示注入与越狱 (Prompt Injection & Jailbreak)
用户通过精心构造的输入,绕过或操纵模型的安全防护和指令约束,诱导其产生开发者不希望看到的输出。这是模型安全领域的一个重要攻防方向。
60. 系统提示 (System Prompt)
在对话开始前,给模型设置的一个全局性指令,用于定义其角色、性格、行为准则和安全边界。该指令旨在整个对话中持续生效,但其约束力可能被后续的复杂对话或恶意输入所影响。
术语对照与缩写
- • PPL: Perplexity (困惑度)
- • SFT: Supervised Fine-Tuning (监督微调)
- • RLHF: Reinforcement Learning from Human Feedback (人类反馈强化学习)
- • DPO: Direct Preference Optimization (直接偏好优化)
- • PEFT: Parameter-Efficient Fine-Tuning (参数高效微调)
- • MoE: Mixture-of-Experts (稀疏专家)
- • RoPE / ALiBi: Positional Encoding (位置编码方案)
- • MQA / GQA: Multi-Query / Grouped-Query Attention (多/分组查询注意力)
- • KV Cache: Key-Value Cache (键值缓存)
- • CLM: Causal Language Modeling (因果语言建模)
- • RAG: Retrieval-Augmented Generation (检索增强生成)
- • CoT: Chain-of-Thought (思维链)
- • ToT: Tree of Thoughts (思维树)
- • MCP: Model Context Protocol (模型上下文协议)
- • ReAct: Reason and Act (推理与行动)
常见问题解答 (FAQ)
Q1: SFT, RLHF 和 DPO 之间有什么关系和区别?
- • A: 它们都是模型微调阶段的对齐技术。SFT 是第一步,通过“指令-回答”数据教会模型听懂指令。RLHF 和 DPO 是第二步,通过人类偏好数据教会模型“更好地回答”。RLHF 需要训练一个独立的奖励模型,而 DPO 直接优化语言模型,过程更简单稳定。
Q2: 我应该选择 LoRA/QLoRA 还是全量微调?
- • A: 这取决于您的计算资源和目标。如果资源有限(特别是显存),或者只想让模型在特定任务上进行微调而不过多影响其通用能力,LoRA/QLoRA 是性价比极高的选择。如果您追求任务的最佳性能,并且拥有充足的计算资源,全量微调 通常能达到更高的效果上限。
Q3: 为什么需要 KV Cache?它解决了什么问题?
- • A: 在生成式推理中,模型每生成一个新词,都需要参考前面所有的词。如果不做优化,每次都要重复计算前面所有词的注意力信息,计算量巨大。KV Cache 通过缓存并复用这些已经计算过的信息,极大地避免了重复计算,从而显著提升了文本生成的速度。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

1269

被折叠的 条评论
为什么被折叠?



