模型压缩与量化
模型压缩目的是减少网络参数量;模型加速的目标则是降低计算复杂度。模型压缩和加速可以通过多种方式来实现。首先是针对网络结构本身进行优化改进,常见的如使用3x3的小卷积核取代大卷积核;average-pooling取代了full-connection layers;MobileNets中使用depth-wise convolution替代传统的卷积方式等。除了根据人工经验和数学模型设计的特有算子结构外,还包括模型剪枝、量化、蒸馏方法。剪枝方法去除神经网络结构中不重要的部分;量化方法则是调整网络结构中的权重







