基于当前主流技术框架,AI 大模型涉及的核心技术点分类整理

AI 大模型涉及的核心技术点分类整理(基于当前主流技术框架)。

一、基础理论与数学基础

  1. 线性代数
    • 矩阵运算(矩阵乘法、特征分解、奇异值分解)
    • 向量空间(高维向量表示、相似度计算)
  2. 概率论与统计
    • 概率分布(高斯分布、伯努利分布、Transformer 中的 Softmax 分布)
    • 贝叶斯理论(参数估计、后验概率计算)
    • 统计学习理论(VC 维、泛化误差界)
  3. 微积分与优化
    • 梯度下降(SGD、Adam、RMSprop 等优化算法)
    • 反向传播(BP 算法,计算图导数求解)
    • 自动微分(Autograd,框架底层实现核心)

二、深度学习基础技术

  1. 神经网络架构
    • 全连接网络(FCN)
    • 卷积神经网络(CNN,用于图像/视频任务)
    • 循环神经网络(RNN/LSTM/GRU,序列建模)
    • Transformer 架构(自注意力机制、编码器-解码器结构)
  2. 注意力机制
    • 自注意力(Self-Attention,序列内部依赖建模)
    • 多头注意力(Multi-Head Attention,多视角特征提取)
    • 全局注意力/局部注意力(Global/Local Attention,计算效率优化)
    • 注意力掩码(Masking,处理变长序列或屏蔽无效位置)
  3. 激活函数
    • ReLU/Leaky ReLU/ELU(缓解梯度消失)
    • GELU/Swish(更平滑的非线性激活)
    • Softmax(分类任务概率归一化)
  4. 正则化技术
    • dropout(神经元随机失活防过拟合)
    • 权重衰减(L1/L2 正则化)
    • 层归一化(Layer Normalization,稳定训练)
    • 批量归一化(Batch Normalization,早期 CNN 常用)
  5. 损失函数
    • 交叉熵损失(分类任务)
    • 均方误差(回归任务)
    • 对比损失(Contrastive Loss,特征向量相似度学习)
    • 掩码语言模型损失(MLM Loss,BERT 类模型预训练)

三、大模型核心技术

  1. 预训练-微调范式
    • 自监督预训练(利用海量无标注数据:语言模型 LM、图像生成等)
    • 微调(Finetuning,针对下游任务调整模型参数)
    • 提示学习(Prompt Learning,通过文本提示引导模型输出)
    • 适配器(Adapter,轻量级微调技术,冻结主体参数)
  2. 规模化训练技术
    • 分布式训练(数据并行、模型并行、混合并行)
    • 超大批量训练(Large Batch Training,结合学习率warmup)
    • 混合精度训练(FP16/FP32/FP64 混合,减少显存占用)
    • 模型并行切分(MoE 架构中的专家并行、Transformer 层拆分)
  3. 模型架构创新
    • 稀疏激活网络(Sparse Activation,如 Mixture of Experts (MoE))
    • 因果语言模型(CLM,自回归架构,如 GPT 系列)
    • 非因果语言模型(如 BERT 的双向编码)
    • 多模态架构(图文融合:CLIP、ALBEF;语音文本:Whisper)
  4. 上下文学习(In-Context Learning, ICL)
    • 小样本学习(Few-Shot Learning)
    • 零样本学习(Zero-Shot Learning)
    • 思维链提示(Chain of Thought, CoT,引导模型分步推理)
  5. 参数高效微调(PEFT)
    • LoRA(Low-Rank Adaptation,低秩适配器)
    • IA³(Improved Alignment Across Layers)
    • QLoRA(量化 LoRA,结合 4bit/8bit 量化)
    • BitFit(仅微调偏置项)

四、多模态与跨模态技术

  1. 多模态表示学习
    • 图文联合嵌入(Image-Text Embedding,如 CLIP、ALBEF)
    • 跨模态注意力(Cross-Modal Attention,文本引导图像生成)
    • 对比学习(图像-文本对匹配,如 SBERT 用于文本语义匹配)
  2. 模态转换技术
    • 文本生成图像(T2I,如 Stable Diffusion、DALL·E)
    • 图像生成文本(I2T,如 BLIP、OFA)
    • 语音识别(ASR,如 Whisper、DeepSpeech)
    • 文本到语音(TTS,如 Tacotron、GPT-4T 的语音合成)
  3. 视频理解与生成
    • 视频-文本对齐(如 CLIP4Video、VideoBERT)
    • 视频生成(如 Sora、Phenaki)

五、训练基础设施与工程

  1. 分布式训练框架
    • TensorFlow 分布式
    • PyTorch 分布式(DDP、FSDP)
    • DeepSpeed/Megatron-LM(大模型专用优化框架)
  2. 高性能计算(HPC)
    • GPU/TPU/ASIC 加速(CUDA 编程、NVLink 多卡互联)
    • 内存优化(Checkpoint 技术、梯度累计)
    • 模型量化(FP16/INT8/INT4,推理加速)
    • 模型压缩(剪枝、知识蒸馏)
  3. 数据工程
    • 海量数据收集与清洗(网页爬取、数据去重、隐私过滤)
    • 数据预处理(分词/Tokenization、图像归一化、语音特征提取)
    • 数据增强(文本增强:EDA、回译;图像增强:旋转、裁剪)
  4. 评估与调试
    • 基准测试(GLUE、SuperGLUE、MMLU、GSM8K)
    • 模型可解释性(Attention 可视化、LIME 局部解释)
    • 对抗样本检测(鲁棒性评估)

六、伦理与安全

  1. 公平性与偏见
    • 训练数据去偏(性别、种族、宗教等维度)
    • 偏见检测指标(如文本分类中的 demographic parity)
  2. 隐私保护
    • 联邦学习(Federated Learning,数据不出本地)
    • 差分隐私(Differential Privacy,添加噪声保护个体数据)
    • 安全多方计算(MPC,多方数据联合训练)
  3. 内容安全
    • 有害内容过滤(NLP 中的毒性检测、图像色情识别)
    • 对齐技术(Alignment,如 RLHF:强化学习从人类反馈中对齐)
    • 红队测试(Red Teaming,主动探测模型漏洞)

七、前沿研究方向

  1. 具身智能(Embodied AI)
    • 多模态传感器融合(视觉+触觉+语言)
    • 物理世界交互(机器人控制、环境探索)
  2. 神经符号系统
    • 符号逻辑与神经网络结合(知识图谱嵌入、逻辑推理模块)
  3. 涌现能力(Emergence)
    • 大模型规模效应下的新能力(推理、规划、抽象思维)
  4. 可持续 AI
    • 绿色训练(降低碳排放,优化计算效率)
    • 模型小型化(轻量级架构,如 MobileBERT、TinyGPT)

以上技术点覆盖了 AI 大模型从理论基础、模型架构、训练工程到伦理安全的全链条。实际应用中,不同领域(如 NLP、CV、多模态)会有技术侧重,且技术迭代速度极快(如 2023-2025 年 MoE、稀疏架构、量子-经典混合计算等方向发展迅速)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值