AI 大模型涉及的核心技术点分类整理(基于当前主流技术框架)。
一、基础理论与数学基础
- 线性代数
- 矩阵运算(矩阵乘法、特征分解、奇异值分解)
- 向量空间(高维向量表示、相似度计算)
- 概率论与统计
- 概率分布(高斯分布、伯努利分布、Transformer 中的 Softmax 分布)
- 贝叶斯理论(参数估计、后验概率计算)
- 统计学习理论(VC 维、泛化误差界)
- 微积分与优化
- 梯度下降(SGD、Adam、RMSprop 等优化算法)
- 反向传播(BP 算法,计算图导数求解)
- 自动微分(Autograd,框架底层实现核心)
二、深度学习基础技术
- 神经网络架构
- 全连接网络(FCN)
- 卷积神经网络(CNN,用于图像/视频任务)
- 循环神经网络(RNN/LSTM/GRU,序列建模)
- Transformer 架构(自注意力机制、编码器-解码器结构)
- 注意力机制
- 自注意力(Self-Attention,序列内部依赖建模)
- 多头注意力(Multi-Head Attention,多视角特征提取)
- 全局注意力/局部注意力(Global/Local Attention,计算效率优化)
- 注意力掩码(Masking,处理变长序列或屏蔽无效位置)
- 激活函数
- ReLU/Leaky ReLU/ELU(缓解梯度消失)
- GELU/Swish(更平滑的非线性激活)
- Softmax(分类任务概率归一化)
- 正则化技术
- dropout(神经元随机失活防过拟合)
- 权重衰减(L1/L2 正则化)
- 层归一化(Layer Normalization,稳定训练)
- 批量归一化(Batch Normalization,早期 CNN 常用)
- 损失函数
- 交叉熵损失(分类任务)
- 均方误差(回归任务)
- 对比损失(Contrastive Loss,特征向量相似度学习)
- 掩码语言模型损失(MLM Loss,BERT 类模型预训练)
三、大模型核心技术
- 预训练-微调范式
- 自监督预训练(利用海量无标注数据:语言模型 LM、图像生成等)
- 微调(Finetuning,针对下游任务调整模型参数)
- 提示学习(Prompt Learning,通过文本提示引导模型输出)
- 适配器(Adapter,轻量级微调技术,冻结主体参数)
- 规模化训练技术
- 分布式训练(数据并行、模型并行、混合并行)
- 超大批量训练(Large Batch Training,结合学习率warmup)
- 混合精度训练(FP16/FP32/FP64 混合,减少显存占用)
- 模型并行切分(MoE 架构中的专家并行、Transformer 层拆分)
- 模型架构创新
- 稀疏激活网络(Sparse Activation,如 Mixture of Experts (MoE))
- 因果语言模型(CLM,自回归架构,如 GPT 系列)
- 非因果语言模型(如 BERT 的双向编码)
- 多模态架构(图文融合:CLIP、ALBEF;语音文本:Whisper)
- 上下文学习(In-Context Learning, ICL)
- 小样本学习(Few-Shot Learning)
- 零样本学习(Zero-Shot Learning)
- 思维链提示(Chain of Thought, CoT,引导模型分步推理)
- 参数高效微调(PEFT)
- LoRA(Low-Rank Adaptation,低秩适配器)
- IA³(Improved Alignment Across Layers)
- QLoRA(量化 LoRA,结合 4bit/8bit 量化)
- BitFit(仅微调偏置项)
四、多模态与跨模态技术
- 多模态表示学习
- 图文联合嵌入(Image-Text Embedding,如 CLIP、ALBEF)
- 跨模态注意力(Cross-Modal Attention,文本引导图像生成)
- 对比学习(图像-文本对匹配,如 SBERT 用于文本语义匹配)
- 模态转换技术
- 文本生成图像(T2I,如 Stable Diffusion、DALL·E)
- 图像生成文本(I2T,如 BLIP、OFA)
- 语音识别(ASR,如 Whisper、DeepSpeech)
- 文本到语音(TTS,如 Tacotron、GPT-4T 的语音合成)
- 视频理解与生成
- 视频-文本对齐(如 CLIP4Video、VideoBERT)
- 视频生成(如 Sora、Phenaki)
五、训练基础设施与工程
- 分布式训练框架
- TensorFlow 分布式
- PyTorch 分布式(DDP、FSDP)
- DeepSpeed/Megatron-LM(大模型专用优化框架)
- 高性能计算(HPC)
- GPU/TPU/ASIC 加速(CUDA 编程、NVLink 多卡互联)
- 内存优化(Checkpoint 技术、梯度累计)
- 模型量化(FP16/INT8/INT4,推理加速)
- 模型压缩(剪枝、知识蒸馏)
- 数据工程
- 海量数据收集与清洗(网页爬取、数据去重、隐私过滤)
- 数据预处理(分词/Tokenization、图像归一化、语音特征提取)
- 数据增强(文本增强:EDA、回译;图像增强:旋转、裁剪)
- 评估与调试
- 基准测试(GLUE、SuperGLUE、MMLU、GSM8K)
- 模型可解释性(Attention 可视化、LIME 局部解释)
- 对抗样本检测(鲁棒性评估)
六、伦理与安全
- 公平性与偏见
- 训练数据去偏(性别、种族、宗教等维度)
- 偏见检测指标(如文本分类中的 demographic parity)
- 隐私保护
- 联邦学习(Federated Learning,数据不出本地)
- 差分隐私(Differential Privacy,添加噪声保护个体数据)
- 安全多方计算(MPC,多方数据联合训练)
- 内容安全
- 有害内容过滤(NLP 中的毒性检测、图像色情识别)
- 对齐技术(Alignment,如 RLHF:强化学习从人类反馈中对齐)
- 红队测试(Red Teaming,主动探测模型漏洞)
七、前沿研究方向
- 具身智能(Embodied AI)
- 多模态传感器融合(视觉+触觉+语言)
- 物理世界交互(机器人控制、环境探索)
- 神经符号系统
- 符号逻辑与神经网络结合(知识图谱嵌入、逻辑推理模块)
- 涌现能力(Emergence)
- 大模型规模效应下的新能力(推理、规划、抽象思维)
- 可持续 AI
- 绿色训练(降低碳排放,优化计算效率)
- 模型小型化(轻量级架构,如 MobileBERT、TinyGPT)
以上技术点覆盖了 AI 大模型从理论基础、模型架构、训练工程到伦理安全的全链条。实际应用中,不同领域(如 NLP、CV、多模态)会有技术侧重,且技术迭代速度极快(如 2023-2025 年 MoE、稀疏架构、量子-经典混合计算等方向发展迅速)。