本文是LLM系列文章,针对《Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application》的翻译。
摘要
大型语言模型 (LLM) 在各个领域都展示了卓越的能力,吸引了学术界和工业界的浓厚兴趣。尽管 LLM 的性能令人印象深刻,但其庞大的规模和计算需求对实际部署构成了相当大的挑战,尤其是在资源有限的环境中。在保持其准确性的同时压缩语言模型的努力已成为研究的重点。在各种方法中,知识蒸馏已成为一种有效的技术,可以在不大幅影响性能的情况下提高推理速度。本文从方法、评价和应用三个方面进行了深入的调查,探讨了专门为 LLM 量身定制的知识提炼技术,具体来说,我们将方法分为白盒 KD 和黑盒 KD,以更好地说明它们的差异。此外,我们还探讨了不同蒸馏方法之间的评价任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,本调查为研究人员提供了宝贵的资源,为该领域的持续发展铺平了道路。