在上期内容中,我们讲透了张量并行:通过“分工做同一道菜”的逻辑,解决“单一层太大”的问题,让千亿级模型能塞进多卡。但实际落地中,光有张量并行还不够——比如96层的GLM-130B,就算每层拆4卡,96层“挨个算”还是慢得离谱。
今天这篇文章,我们聚焦更高效的流水线并行,再讲透“张量+流水线”的混合并行(大模型的终极方案),最后给一份“卡数-模型-并行策略”的匹配指南,帮你直接落地。
一、流水线并行:用“满汉全席流水线”讲明白
如果说张量并行是“同一道菜多人分着做”,那流水线并行就是“多道菜多人接力做”——把整个模型的“多层计算”拆成流水线,让多卡同时处理不同层,大幅减少等待时间。
1. 核心逻辑:从“串行”到“并行”
我们用“做满汉全席(10道菜)”比喻96层Transformer模型:
- 串行模式(无并行):1个人做完全部10道菜,做完一道再做下一道,总耗时10小时;
- 流水线模式:10个人排一队,第1人只做第1道菜,第2人只做第2道菜……第10人只做第10道菜。
当第1人做完第1道菜传给第2人时,第1人可以马上开始做“下一轮的第1道菜”——相当于“多轮任务”在流水线上同时推进,总耗时从10小时降到2小时(仅需等第一轮做完,后续每小