原文地址:大模型技术栈
- 第一部分:算法与原理
- 第一章 概览与前置任务
- tokenizer训练
- tokenizer原理与算法:BPE,ByteBPE,wordpiece,unilm,sentence-piece
- tokenizer训练:sentence-piece
- position encoding方案
- Alibi
- RoPE
- 注意力机制与transformer架构
- 典型的自注意力机制
- 其他注意力机制
- Mamba,H3,Hyena,RetNet,RWKV,Linear attention,Sparse attention
- 典型的transformer架构
- decoder-only
- encoder-only
- encoder-decoder
- tokenizer训练
- 第二章 训练
- 预训练
- lm训练配置
- 正则化方法
- 激活函数
- 优化器
- lm训练配置
- SFT训练
- 强化学习
- Police-Based
- Value-Based
- Actor-Critic
- RLHF训练
- 其他指令对齐训练
- 分布式并行训练技术
- 模型并行
- tensor parellelism
- 序列并行
- pipeline parellelism
- GPipe,1F1B,interleaved 1F1B
- 数据并行
- DP,DDP,FSDP,ZeRO
- 模型并行
- 预训练
- 第一章 概览与前置任务