MIT-TinyML学习笔记【1】Pruning

最新推荐文章于 2024-10-15 10:20:47 发布

dayelang.

最新推荐文章于 2024-10-15 10:20:47 发布

阅读量181

点赞数

文章标签：学习笔记剪枝深度学习

本文链接：https://blog.csdn.net/qq_41977060/article/details/131719594

版权

文章探讨了神经网络剪枝的不同方法，包括按不同粒度（如细粒度、模式基、通道级）进行的结构化和非结构化剪枝，以及基于大小、缩放因子、泰勒展开和第一阶导数的剪枝准则。剪枝旨在减小模型大小，提高效率，同时保持或提升性能。实验表明，反复剪枝和重训练能在压缩模型90%的情况下实现无精度损失。

摘要由CSDN通过智能技术生成

[!quote]-
Abstract

不同粒度的剪枝
剪枝准则

Introduction to Pruning

Make neural network smaller by removing synapses and neurons

根据某种criteria进行权重的选择
可以看到初始的权重分布近似高斯，剪枝后的权重在零值出出现了gap，重新训练后的权重弥补了gap并且分布的更加均匀

进一步，反复剪枝和重训练，能达到压缩模型90%的情况下实现无精度损失

经典网络模型的剪枝实验

（**注意Parameter和MACs的计算方法不同[[L02-Efficiency Metrics]]）

这里AlexNet和VGG-16中的全连接层FC数量比较多，SqueezeNet原本的参数量就已经很小，但是Dr. Han在Ph.D论文实验中进行测试，还是很进一步压缩的空间的！

在约束条件：非零权重non-zero weight数量小于阈值N（这个阈值N往往是通过设定剪枝比例来计算的）的条件下，使得pruned weights剪枝后的权重计算得到的Loss最小

结构化剪枝vs非结构化剪枝

**不同粒度的剪枝分类如下
从左向右具有越来越规则的pattern，注意第二个方法的pattern固定后比fine-grained方法更好索引

Pattern-baed （NVIDIA的GPU支持这类剪枝）
- N：M的意思是每M个连续的元素中有N个被剪枝，例如下图中为2：4的剪枝
- 将8x8的dense matrix压缩乘8x4的矩阵，然后用额外的2-bit位宽数据保存索引
- 其中，1bit为location，1bit为该位置上的weight是不是零

**less important parameters being removed are, the better performance of pruned neural network is.

intuition：0.1应该被舍弃

也可以计算L2-norm、Lp-norm

A scaling factor is associated with each filter (i.e., output channel) in convolutional layers
The scaling factor is multiplied to the output of that channel
The scaling factors are trainable parameters（encourage some channel to zero）
最后得到小的scaling factor的通道会被剪枝
如何使用？
- scaling factors可以在BN层加入，而不需要一个额外的layer
  ^kkcprq