大模型分离架构学习记录

momomo_mocs

已于 2024-09-13 17:47:41 修改

阅读量2.6k

点赞数 28

文章标签：语言模型

于 2024-09-12 18:53:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_WHB/article/details/142183541

版权

1、大模型相关名词

TOE（TCP Offload Engine）是指TCP卸载引擎。它是一种网络技术，通过将TCP/IP协议栈的一部分处理任务从主机的CPU卸载到网卡；也就是RDMA
NVLink :在单台服务器内 8 块 GPU 卡通过 NVLink 连接。不同服务器之间的 GPU 卡通过 RDMA 网络连接。
SLO(Service Level Objective) 服务水平目标
TTFT(Time To First Token) prefill首token耗时
TPOT(Time Per Output Token) decode 每token耗时
TBT （Time Between Tokens）两个 token 生成间的延迟
DP 数据并行
TP 张量并行
PP 流水线并行
MFU（Model FLOPs Utilization）：即模型算力利用率
VRAM (video Ram) : 显存

2、大模型分离架构背景

大模型分离架构是指将预填充(prefill)及解码(decode)逻辑拆分到2台机器上执行，旨在

将更好性能的GPU分配到compute_bound的prefill阶段；将其他机器分配到memory_bound的decode阶段，提高吞吐
可以根据prefill及decode的特点，在batchsize及并行策略上进行独立优化

3、分离架构性能实验论文

3.1 DistServe实验数据

(分离式架构可以在同等TTFT和TPOT下提升吞吐)

参考文章：https://aijishu.com/a/10600000

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。