本文是LLM系列文章,针对《EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism》的翻译。
摘要
我们提出了EE-LLM,一个用于早期退出大型语言模型(LLM)的大规模训练和推理的框架。虽然最近的工作已经初步证明了早期退出在加速LLM推理方面的有效性,但EE-LLM通过支持大规模3D并行性的训练和推理,朝着扩大早期退出LLM迈出了基础性的一步。EE-LLM建立在Megatron-LM的基础上,实现了各种针对早期退出的算法创新和性能优化,包括一种轻量级方法,该方法有助于通过流水线并行性对早期退出训练目标进行反向传播,利用原始流水线调度中的空闲资源进行与早期退出层相关的计算的技术,以及与用于自回归生成的KV缓存兼容的两种早期退出推断方法。我们的分析和实证研究表明,与标准LLM训练相比,EE-LLM以可忽略的计算开销实现了很高的训练效率,并在不影响输出质量的情况下实现了出色的推理加速。为了促进进一步的研究和采用,我们在https://github.com/pan-x-c/EE-LLM上开源了EE-LLM。