在发布Llama 3.1 405B 开源大模型时,扎克伯格其文章《Open Source AI Is the Path Forward》中特别提到:
较于闭源模型,这些开源模型在成本效益上显著提升,特别是 405B 模型的开源特性,使其成为微调和蒸馏小型模型的最佳选择。
###############
该报告分为三个主要部分:
🚀 架构:第 2 节重点介绍轻量级模型架构和高效的自我注意力。
🚀 预训练:第 3 节讨论 SLM 的预训练和微调技术。
🚀压缩技术:第 4 节涵盖了诸如修剪、量化和蒸馏等模型压缩技术。
后面的5、6、7 节概述了基准数据集和评估指标,讨论了按限制条件排列的 SLM 支持的应用程序以及SLM中的未决挑战。
下面事我们比较关注的点
(1)修剪技巧
非结构化修剪去了微不足道的权重,从而减小了模型大小。SparseGPT 将修剪「重构」为大型模型的稀疏回归问题。结构化修剪通过移除参数组来保持性能。上下文稀疏和动态修剪方法可优化计算和内存。
(2)量化
量化方法可优化权重和激活以提高效率。像 AWQ 和 ZeroQuant 这样的技术会评估权重对优化的重要性。量化感知训练方法可有效恢复量化错误。
(3)知识蒸馏技术
蒸馏策略将知识从Teacher模型转移到较小的Student模型。babyLlama 表明,蒸馏可以胜过传统的预训练。分层蒸馏和任务感知过滤器可改善知识传授。 将蒸馏与修剪相结合可创建更小、更有效的语言模型。