大模型分离架构学习记录

1、大模型相关名词

  • TOE(TCP Offload Engine)是指TCP卸载引擎。它是一种网络技术,通过将TCP/IP协议栈的一部分处理任务从主机的CPU卸载到网卡; 也就是RDMA
  • NVLink :在单台服务器内 8 块 GPU 卡通过 NVLink 连接。不同服务器之间的 GPU 卡通过 RDMA 网络连接。
  • SLO(Service Level Objective) 服务水平目标
  • TTFT(Time To First Token) prefill首token耗时
  • TPOT(Time Per Output Token) decode 每token耗时
  • TBT (Time Between Tokens) 两个 token 生成间的延迟
  • DP 数据并行
  • TP 张量并行
  • PP 流水线并行
  • MFU(Model FLOPs Utilization):即模型算力利用率
  • VRAM (video Ram) : 显存

2、大模型分离架构背景

大模型分离架构是指将预填充(prefill)及解码(decode)逻辑拆分到2台机器上执行,旨在

  1. 将更好性能的GPU分配到compute_bound的prefill阶段;将其他机器分配到memory_bound的decode阶段,提高吞吐

  2. 可以根据prefill及decode的特点,在batchsize及并行策略上进行独立优化

3、分离架构性能实验论文

3.1  DistServe实验数据

(分离式架构可以在同等TTFT和TPOT下提升吞吐)

参考文章:https://aijishu.com/a/10600000
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值