![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读论文
文章平均质量分 94
黄昏贩卖机
这个作者很懒,什么都没留下…
展开
-
Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM
在这篇文章中展示了 如何将 tensor ,pipeline, data 并行组合,扩展到数千个GPU上。提出了一个新的交错流水线调度,可以提升10%的吞吐量。利用数据并行进行规模化,通常表现很好但是存在两方面的限制:a) 除了一个节点的情况,每个GPU的batch size 太小会将带GPU的利用率,增加通信的损耗b) 可用设备的最大数是batch的size,限制了加速器的数量。一些模型被提出来解决这两个挑战。原创 2022-11-29 12:17:40 · 2337 阅读 · 0 评论 -
Gang scheduling istn‘t worth it ...yet
要想 gang scheduling 别其他的调度性能更好,需要满足以下的几个条件:- fine-grained synchronization,good load balancing of work,- latency-sensitive workloads,- multiple important parallel workloads,- a need to adapt under changing conditions.原创 2022-11-26 21:02:46 · 515 阅读 · 0 评论 -
Gang Scheduling Performance Benefits for Fine-Grain Synchronization
gang scheduling, where a set of threads are scheduled to execute simultaneously on a set of processors. gang scheduling 一组线程同时在一组处理器上执行的调度。原创 2022-11-24 22:18:34 · 462 阅读 · 0 评论