小模型综述(蒸馏含金量逐渐上升-论文分享)

在发布Llama 3.1 405B 开源大模型时,扎克伯格其文章《Open Source AI Is the Path Forward》中特别提到:

较于闭源模型,这些开源模型在成本效益上显著提升,特别是 405B 模型的开源特性,使其成为微调和蒸馏小型模型的最佳选择。

###############

该报告分为三个主要部分:

🚀 架构:第 2 节重点介绍轻量级模型架构和高效的自我注意力。

🚀 预训练:第 3 节讨论 SLM 的预训练和微调技术。

🚀压缩技术:第 4 节涵盖了诸如修剪、量化和蒸馏等模型压缩技术。

后面的5、6、7 节概述了基准数据集和评估指标,讨论了按限制条件排列的 SLM 支持的应用程序以及SLM中的未决挑战。

下面事我们比较关注的点

(1)修剪技巧

非结构化修剪去了微不足道的权重,从而减小了模型大小。SparseGPT 将修剪「重构」为大型模型的稀疏回归问题。结构化修剪通过移除参数组来保持性能。上下文稀疏和动态修剪方法可优化计算和内存。

(2)量化

量化方法可优化权重和激活以提高效率。像 AWQ 和 ZeroQuant 这样的技术会评估权重对优化的重要性。量化感知训练方法可有效恢复量化错误。

(3)知识蒸馏技术

蒸馏策略将知识从Teacher模型转移到较小的Student模型。babyLlama 表明,蒸馏可以胜过传统的预训练。分层蒸馏和任务感知过滤器可改善知识传授。 将蒸馏与修剪相结合可创建更小、更有效的语言模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值