人工智能(AI)技术,尤其是大语言模型(LLM, Large Language Model)的崛起,让人类进入了一个智能交互、自动化创新的新时代。然而,面对诸如“参数规模”、“注意力机制”、“RLHF”、“微调(Fine-tuning)”等术语,许多技术人员甚至 AI 从业者都会感到困惑。
本文将系统梳理大模型相关的核心术语,并对其进行深入解析,帮助读者建立清晰、全面的知识体系,提升在 AI 领域的理解力与竞争力。
一、大模型核心架构术语
1. Transformer(变换器)
Transformer 是现代大语言模型的核心架构,由 Google 2017 年论文《Attention Is All You Need》提出。它使用自注意力(Self-Attention)机制和**前馈神经网络(FFN)**来高效处理文本数据,取代了传统 RNN/CNN。
关键词:
-
自注意力(Self-Attention):计算序列中每个单词对其他单词的影响。
-
多头注意力(Multi-Head Attention, MHA):让模型在不同语义层次上关注多个信息点。
-
前馈神经网络(FFN):对注意力计算后的信息进行转换和增强。
2. GPT(Generative Pre-trained Transformer)
GPT(生成式预训练变换器)是 OpenAI 提出的大规模自回归(Autoregressive)模型,用于生成自然语言文本。GPT 采用无监督学习进行大规模文本训练,然后进行任务特定的微调。
演进过程:
-
GPT-1(2018):1.1 亿参数,主要基于 Transformer 进行文本生成。
-
GPT-2(2019):15 亿参数,能够生成更连贯的文章,但因安全问题一度未公开。
-
GPT-3(2020):1750 亿参数,支持更强的自然语言处理能力。
-
GPT-4(2023):采用多模态(支持图像、文本输入),增强推理能力。
关键词:
-
自回归模型(Autoregressive Model):逐步预测下一个 token,构建文本。
-
上下文窗口(Context Window):决定模型一次处理的最大文本长度。
3. BERT(Bidirectional Encoder Representations from Transformers)
BERT 是 Google 于 2018 年提出的模型,采用双向 Transformer 编码器,与 GPT 不同,BERT 不是自回归模型,而是自编码(Autoencoder)模型,能够更好地理解上下文。
关键词:
-
掩码语言模型(Masked Language Model, MLM):在训练时随机遮蔽部分单词,让模型预测它们。
-
下一句预测(Next Sentence Prediction, NSP):判断两句话是否相关。
GPT 与 BERT 的区别:
GPT | BERT | |
---|---|---|
结构 | 自回归 | 自编码 |
训练方式 | 预测下一个 token | 预测掩码单词 |
任务类型 | 文本生成 | 文本理解 |
二、大模型训练与优化术语
4. 预训练(Pre-training)
在大规模数据集上进行无监督学习,让模型学习通用语言知识。
方法:
-
自监督学习(Self-Supervised Learning, SSL):使用输入数据本身构造监督信号,如 BERT 的 MLM 任务。
-
对比学习(Contrastive Learning):如 CLIP 模型,通过对比不同模态(文本-图像)学习语义。
5. 微调(Fine-tuning)
在特定任务上使用少量数据调整预训练模型的权重,使其更适用于具体应用,如情感分析、代码生成等。
微调方式:
-
全参数微调(Full Fine-tuning):调整所有模型参数,适用于大数据场景。
-
参数高效微调(Parameter Efficient Fine-tuning, PEFT):如 LoRA、Adapter,仅调整部分参数,降低计算成本。
6. RLHF(Reinforcement Learning from Human Feedback)
即基于人类反馈的强化学习,用于优化大模型的输出,使其更符合人类偏好。
过程:
-
训练奖励模型:使用人类标注的优质回答数据,训练奖励模型。
-
强化学习优化:用 Proximal Policy Optimization(PPO)调整模型,使其输出更符合人类期望。
应用:
-
GPT-4 采用 RLHF 进行优化,使对话更自然、更有逻辑性。
三、大模型计算与推理术语
7. 参数量(Parameter Size)
模型的权重数量,如 GPT-3 的 1750 亿参数。参数越多,计算能力越强,但计算开销也更大。
参数优化策略:
-
蒸馏(Distillation):用大模型训练小模型,如 TinyBERT。
-
剪枝(Pruning):移除冗余参数,减少计算需求。
8. 量化(Quantization)
将模型的浮点数权重转换为低精度整数(如 FP32 → INT8),降低计算需求,提高推理效率。
常见方法:
-
Post-Training Quantization(PTQ):训练后量化,速度快但可能降低精度。
-
Quantization-Aware Training(QAT):训练时模拟量化,保持精度但训练成本高。
9. Mixture of Experts(MoE,多专家混合)
MoE 允许多个子模型(专家网络)协同工作,每个输入只激活部分专家,减少计算成本。
示例:
-
GPT-4 可能使用 MoE 架构,部分参数在推理时被动态选择,优化效率。
四、大模型应用与安全术语
10. Prompt Engineering(提示工程)
通过精心设计输入文本(Prompt),引导 LLM 生成更精准的答案。
方法:
-
Zero-shot Learning(零样本学习):不提供示例,直接让模型推理。
-
Few-shot Learning(少样本学习):提供几个示例,让模型模仿回答格式。
11. Hallucination(幻觉)
模型生成不真实或错误的内容,是当前大模型的重要挑战。
应对方式:
-
基于 RAG(Retrieval-Augmented Generation)的增强检索模型,结合知识库提升准确性。
-
人类反馈优化(RLHF),减少幻觉率。
结语:掌握术语,深刻理解 AI 未来
大模型技术日新月异,掌握核心术语不仅能加深理解,还能在AI 研究、应用开发、测试优化等方面更高效地与行业接轨。从 Transformer、GPT 到 RLHF、MoE,每个概念都代表着 AI 发展的里程碑。
未来,随着更高效的模型架构、更智能的训练策略、更安全的 AI 应用的推进,我们正站在智能时代的前沿,见证 AI 技术变革世界的每一刻! 🚀