大模型专业术语全揽：深入理解 AI 时代的核心概念-CSDN博客

本文链接：https://blog.csdn.net/tony2yy/article/details/146638392

人工智能（AI）技术，尤其是大语言模型（LLM, Large Language Model）的崛起，让人类进入了一个智能交互、自动化创新的新时代。然而，面对诸如“参数规模”、“注意力机制”、“RLHF”、“微调（Fine-tuning）”等术语，许多技术人员甚至 AI 从业者都会感到困惑。

本文将系统梳理大模型相关的核心术语，并对其进行深入解析，帮助读者建立清晰、全面的知识体系，提升在 AI 领域的理解力与竞争力。

一、大模型核心架构术语

1. Transformer（变换器）

Transformer 是现代大语言模型的核心架构，由 Google 2017 年论文《Attention Is All You Need》提出。它使用自注意力（Self-Attention）机制和**前馈神经网络（FFN）**来高效处理文本数据，取代了传统 RNN/CNN。

关键词：

自注意力（Self-Attention）：计算序列中每个单词对其他单词的影响。
多头注意力（Multi-Head Attention, MHA）：让模型在不同语义层次上关注多个信息点。
前馈神经网络（FFN）：对注意力计算后的信息进行转换和增强。

2. GPT（Generative Pre-trained Transformer）

GPT（生成式预训练变换器）是 OpenAI 提出的大规模自回归（Autoregressive）模型，用于生成自然语言文本。GPT 采用无监督学习进行大规模文本训练，然后进行任务特定的微调。

演进过程：

GPT-1（2018）：1.1 亿参数，主要基于 Transformer 进行文本生成。
GPT-2（2019）：15 亿参数，能够生成更连贯的文章，但因安全问题一度未公开。
GPT-3（2020）：1750 亿参数，支持更强的自然语言处理能力。
GPT-4（2023）：采用多模态（支持图像、文本输入），增强推理能力。

关键词：

自回归模型（Autoregressive Model）：逐步预测下一个 token，构建文本。
上下文窗口（Context Window）：决定模型一次处理的最大文本长度。

3. BERT（Bidirectional Encoder Representations from Transformers）

BERT 是 Google 于 2018 年提出的模型，采用双向 Transformer 编码器，与 GPT 不同，BERT 不是自回归模型，而是自编码（Autoencoder）模型，能够更好地理解上下文。

关键词：

掩码语言模型（Masked Language Model, MLM）：在训练时随机遮蔽部分单词，让模型预测它们。
下一句预测（Next Sentence Prediction, NSP）：判断两句话是否相关。

GPT 与 BERT 的区别：

	GPT	BERT
结构	自回归	自编码
训练方式	预测下一个 token	预测掩码单词
任务类型	文本生成	文本理解

二、大模型训练与优化术语

4. 预训练（Pre-training）

在大规模数据集上进行无监督学习，让模型学习通用语言知识。

方法：

自监督学习（Self-Supervised Learning, SSL）：使用输入数据本身构造监督信号，如 BERT 的 MLM 任务。
对比学习（Contrastive Learning）：如 CLIP 模型，通过对比不同模态（文本-图像）学习语义。

5. 微调（Fine-tuning）

在特定任务上使用少量数据调整预训练模型的权重，使其更适用于具体应用，如情感分析、代码生成等。

微调方式：

全参数微调（Full Fine-tuning）：调整所有模型参数，适用于大数据场景。
参数高效微调（Parameter Efficient Fine-tuning, PEFT）：如 LoRA、Adapter，仅调整部分参数，降低计算成本。

6. RLHF（Reinforcement Learning from Human Feedback）

即基于人类反馈的强化学习，用于优化大模型的输出，使其更符合人类偏好。

过程：

训练奖励模型：使用人类标注的优质回答数据，训练奖励模型。
强化学习优化：用 Proximal Policy Optimization（PPO）调整模型，使其输出更符合人类期望。

应用：

GPT-4 采用 RLHF 进行优化，使对话更自然、更有逻辑性。

三、大模型计算与推理术语

7. 参数量（Parameter Size）

模型的权重数量，如 GPT-3 的 1750 亿参数。参数越多，计算能力越强，但计算开销也更大。

参数优化策略：

蒸馏（Distillation）：用大模型训练小模型，如 TinyBERT。
剪枝（Pruning）：移除冗余参数，减少计算需求。

8. 量化（Quantization）

将模型的浮点数权重转换为低精度整数（如 FP32 → INT8），降低计算需求，提高推理效率。

常见方法：

Post-Training Quantization（PTQ）：训练后量化，速度快但可能降低精度。
Quantization-Aware Training（QAT）：训练时模拟量化，保持精度但训练成本高。

9. Mixture of Experts（MoE，多专家混合）

MoE 允许多个子模型（专家网络）协同工作，每个输入只激活部分专家，减少计算成本。

示例：

GPT-4 可能使用 MoE 架构，部分参数在推理时被动态选择，优化效率。

四、大模型应用与安全术语

10. Prompt Engineering（提示工程）

通过精心设计输入文本（Prompt），引导 LLM 生成更精准的答案。

方法：

Zero-shot Learning（零样本学习）：不提供示例，直接让模型推理。
Few-shot Learning（少样本学习）：提供几个示例，让模型模仿回答格式。

11. Hallucination（幻觉）

模型生成不真实或错误的内容，是当前大模型的重要挑战。

应对方式：

基于 RAG（Retrieval-Augmented Generation）的增强检索模型，结合知识库提升准确性。
人类反馈优化（RLHF），减少幻觉率。

结语：掌握术语，深刻理解 AI 未来

大模型技术日新月异，掌握核心术语不仅能加深理解，还能在AI 研究、应用开发、测试优化等方面更高效地与行业接轨。从 Transformer、GPT 到 RLHF、MoE，每个概念都代表着 AI 发展的里程碑。

未来，随着更高效的模型架构、更智能的训练策略、更安全的 AI 应用的推进，我们正站在智能时代的前沿，见证 AI 技术变革世界的每一刻！ 🚀