深度神经网络(DNN)有个很大的缺点就是计算量太大。为克服这类问题,研究人员在两方面做了工作。
第一,使用高性能硬件加速;
第二,使用模型压缩(Model compression)。
我们这里讲的就是软件的方法,即模型压缩。
模型压缩的方法:
网络剪枝(Network Pruning)
量化(Quantization)
低秩分解(Low-rank factorization)
知识蒸馏(Knowledge distillation)
网络剪枝(Network Pruning)
研究的核心问题就是:如何有效地裁剪模型参数且最小化精度的损失。
网络剪枝可以分为 结构化剪枝(Structured pruning) 和 非结构化剪枝(Unstructured pruning) 两类。
目的:<1>减小内存开销,提升运行速度 <2>减小模型文件大小
量化(Quantization)
模型量化的基本思想就是用更低