精炼模型
随着各类AI模型的高速发展,模型和深度学习系统的体量正在以指数级别逐渐膨胀。越发巨量的计算,存储,能耗等问题让AI从业者们迫不得已寻求对应的解决方案: 如何将巨大的AI模型适配在有
模型量化的一个本质是节约小数点。五年级数学课上,一个重要的问题是确定圆周率3.1415926约到第几位能做到方便估算。GPU等计算硬件同样需要简化小数。节约小数点位可以节省资源,圆周率节约到几位小数可以决定这种估算到底有多准确,模型量化也要面对这样的问题。是否模型量化后精简的模型和原来的模型达到相同的能力,量化-精度平衡。
PTQ量化前身-OBS剪枝
模型剪枝是把模型裁剪部分权重的过程。1993年Hassibi 指出由于剪枝一个深度学习模型时造成的错误 相对于剪掉的权重
可以被泰勒展开模拟:

当一个神经网络的权重训练到局部最优或者聚合稳定状态时,上式的首项一阶导数即会无线趋近为零,但是第二项二阶导数不会为零,至于高阶导数,在泰勒展开模拟中往往都会被忽略。抹除具体某个
本文探讨了随着AI模型规模的增长,如何通过模型量化和剪枝技术来解决计算、存储和能耗问题。重点介绍了OBS剪枝与量化的关系,以及在Transformer模型中的优化,包括从贪心策略到批次量化,以及科列斯基分解在处理大规模计算需求中的应用。
最低0.47元/天 解锁文章
809

被折叠的 条评论
为什么被折叠?



