1、大模型相关名词
- TOE(TCP Offload Engine)是指TCP卸载引擎。它是一种网络技术,通过将TCP/IP协议栈的一部分处理任务从主机的CPU卸载到网卡; 也就是RDMA
- NVLink :在单台服务器内 8 块 GPU 卡通过 NVLink 连接。不同服务器之间的 GPU 卡通过 RDMA 网络连接。
- SLO(Service Level Objective) 服务水平目标
- TTFT(Time To First Token) prefill首token耗时
- TPOT(Time Per Output Token) decode 每token耗时
- TBT (Time Between Tokens) 两个 token 生成间的延迟
- DP 数据并行
- TP 张量并行
- PP 流水线并行
- MFU(Model FLOPs Utilization):即模型算力利用率
- VRAM (video Ram) : 显存
2、大模型分离架构背景
大模型分离架构是指将预填充(prefill)及解码(decode)逻辑拆分到2台机器上执行,旨在
-
将更好性能的GPU分配到compute_bound的prefill阶段;将其他机器分配到memory_bound的decode阶段,提高吞吐
- 可以根据prefill及decode的特点,在batchsize及并行策略上进行独立优化
3、分离架构性能实验论文
3.1 DistServe实验数据
(分离式架构可以在同等TTFT和TPOT下提升吞吐)
参考文章:https://aijishu.com/a/10600000