大模型领域术语

1. 分布式训练相关

  1. 数据并行(Data Parallelism)
    • 将训练数据分片到多个设备(GPU/TPU),每个设备持有完整的模型副本,独立计算梯度后同步更新。
    • 典型实现:PyTorch DistributedDataParallel (DDP)、TensorFlow MirroredStrategy
  2. 模型并行(Model Parallelism)
    • 将模型拆分到多个设备上(如按层拆分),每个设备仅负责部分计算。
    • 典型场景:训练超大模型(如GPT-3、PaLM)。
    • 工具:Megatron-LM、DeepSpeed。
  3. 流水线并行(Pipeline Parallelism)
    • 将模型按层划分为多个阶段(stage),不同设备处理不同阶段,通过微批次(micro-batch)隐藏通信开销。
    • 典型实现:GPipe、PipeDream。
  4. 参数服务器(Parameter Server)
    • 分布式架构中的中心化参数管理节点,负责存储和更新模型参数,其他节点计算梯度并推送至服务器。
    • 缺点:通信瓶颈明显,逐渐被AllReduce取代。
  5. Ring AllReduce
    • 高效的分布式梯度同步算法,各设备组成环形拓扑,分两步(Scatter-Reduce、AllGather)完成梯度聚合。
    • 优点:通信开销与设备数量无关,适合大规模集群。
    • 支持框架:Horovod、PyTorch DDP。

2. 显存优化技术

  1. ZeRO(Zero Redundancy Optimizer)
    • 微软DeepSpeed提出的显存优化技术,通过分片模型参数、梯度和优化器状态,消除多卡间的冗余存储。
    • 三个阶段:
      • ZeRO-1:优化器状态分片
      • ZeRO-2:梯度分片
      • ZeRO-3:参数分片(支持训练万亿参数模型)。
  2. 梯度检查点(Gradient Checkpointing)
    • 通过在前向传播中丢弃部分中间结果,反向传播时重新计算,以显存换时间。
    • 显存节省:可达70%,但训练速度降低约20%。
  3. 混合精度训练(Mixed Precision Training)
    • 使用FP16计算(加速)和FP32存储(避免数值溢出),结合动态损失缩放(Loss Scaling)。
    • 硬件依赖:需支持Tensor Core(如NVIDIA V100/A100)。
  4. 激活重计算(Activation Recomputation)
    • 类似梯度检查点,但仅针对激活值(activations)进行重计算。

3. 参数高效训练技术

  1. LoRA(Low-Rank Adaptation)
    • 冻结预训练模型参数,仅训练低秩分解的适配矩阵(Adapter),大幅减少可训练参数。
    • 典型应用:大模型微调(如LLaMA-Adapter)。
  2. Prefix Tuning
    • 在输入序列前添加可学习的“前缀向量”,通过调整前缀微调模型行为。
  3. Adapter Layers
    • 在Transformer层中插入小型全连接网络,仅训练这些适配层。

4. 训练加速技术

  1. 梯度累积(Gradient Accumulation)
    • 将多个小批次的梯度累加后再更新参数,模拟大批次训练,节省显存。
  2. 动态批处理(Dynamic Batching)
    • 根据输入序列长度动态调整批次大小,最大化GPU利用率。
  3. Flash Attention
    • 通过优化注意力计算的内存访问模式,加速Transformer训练和推理。
    • 速度提升:2-4倍(针对长序列场景)。

5. 其他关键术语

  1. MoE(Mixture of Experts)
    • 将模型拆分为多个专家子网络,每层根据输入动态选择激活的专家。
    • 代表模型:Switch Transformer、GLaM。
  2. 张量并行(Tensor Parallelism)
    • 将矩阵运算拆分到多卡(如按行或列分片),属于模型并行的一种。
    • 典型实现:Megatron-LM中的Transformer层分片。
  3. 3D并行(数据+流水线+模型)
    • 结合数据并行、流水线并行和模型并行,用于训练超大规模模型(如PaLM)。
  4. Checkpointing
    • 定期保存模型状态(参数、优化器状态等),防止训练中断后从头开始。
  5. Warmup & 学习率调度
    • Warmup:训练初期逐步增大学习率,避免梯度不稳定。
    • 调度策略:余弦退火、线性衰减等。
  6. BF16(Brain Floating Point)
    • 一种16位浮点格式(相比FP16动态范围更大),适合大模型训练(如Google TPU支持)。

6 推理相关

  1. Prefill阶段:也叫prompt或者全量推理阶段,是对用户传入的输入第一次进行推理的阶段。该阶段的输入是用户传入的完整长度的语句。
  2. Decoder阶段:也叫增量推理阶段,基于Prefill阶段的输出进行迭代推理的阶段。由于该阶段每次迭代的输入都是上一次推理的输出,所以叫做增量推理。
  3. PD分离:也就是Prefill阶段和Decoder阶段分离执行。
  4. KV Cache:KV Cache其实是在大语言模型中使用的一种技术,用于缓存已经计算过的Key和Value,避免在每一步生成过程中重复计算整个上下文。本文代指计算完的Key和Value缓存。
  5. PagedAttention:简称PA。简单说是一种使用离散block的方式管理请求KV Cache的功能,相比未使用此功能的框架而言,能够达到节省KV Cache内存占用大小的效果。
  6. block_table:在PA场景下,表示请求KV Cache占用的block index的集合。
  7. 请求:可以理解为用户提的问题,该问题经过Prefill和Decoder阶段会有对应的回答,我们称这个过程为一次请求。
  8. role:表示LLM-DataDist代表的业务角色。业务角色分为Prefill和Decoder两种。
  9. cluster_id:表示LLM-DataDist所在的集群标识。主要用于Decoder侧通过cluster_id找到对应链路,从而找到Prefill侧缓存的对应请求的KV Cache。对于一个模型的不同切分部署到不同device的场景,当前在支持PD对等切分场景下,cluster_id在不同切分模型间设置一样。
  10. 集群动态扩缩容:根据业务闲忙,动态的调整集群的数量以及PD集群的配比,从而达到闲时节省资源,忙时提高吞吐的目的。
  11. D2D传输:指数据从Device设备往Device设备传输
  12. D2H传输:指数据从Device设备往Host设备传输
  13. H2D传输:指数据从Host设备往Device设备传输
内容概要:本文档详细介绍了AI大模型行业的专业术语及其基础知识。文章首先解释了关键的专业术语,如Transformers架构、自注意力机制、多头注意力机制、预训练、微调等概念的作用与应用场景,并探讨了它们的发展背景及意义。接着阐述了几种重要的神经网络架构,包括多层感知机(MLP)、卷积神经网络(CNN),尤其重点介绍处理序列数据方面有突出贡献的循环神经网络(RNN),还涉及了损失函数与优化器、反向传播算法等基本原理。在自然语言处理基础部分,则涵盖了语言模型的概念,词法、句法和语义分析的任务和挑战,常用的文本表示方法及其优缺点等内容。最后梳理了大模型的发展历程和趋势,列举了一些标志性的研究成果和发展里程碑,揭示了模型规模扩大所带来的性能变化及其带来的挑战与解决方案。 适合人群:本文档适用于希望深入了解人工智能尤其是大型预训练模型技术原理和技术发展脉络的研究人员、开发者和学生等群体。 使用场景及目标:适用于希望构建自己的机器学习或深度学习系统的个人或团队;或者是从事相关领域研究的人士想要跟上最新进展并找到进一步探索的方向;还可以帮助那些希望运用现有工具和技术解决实际问题的企业或机构。 其他说明:本文档对于每一项知识点均进行了细致剖析,不仅限于定义层面,而且从理论依据、实际应用案例等多个维度展开了讨论,确保读者可以建立深刻的认识。此外,通过对大模型发展趋势的关注,有助于预见未来的技术走向和技术难题,为企业和个人决策提供参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值