本文是对论文“To prune, or not to prune: exploring the efficacy ofpruning for model compression”的摘抄。 这篇文章是TensorFlow模型优化工具文档中推荐的,作者Michael H. Zhu,来自斯坦福大学。 在这里可以找到论文原文。 背景
对于资源有限的移动终端设备来说,内容带宽通常是一个重要的限制因素。模型压缩至少有两点好处:减少耗电的内存访问次数;同等带宽下提升压缩模型参数的获取效率。剪枝将不重要的模型权重归零,实现了模型压缩的同时只带来了较小的质量损失。剪枝之后的模型是稀疏的,在支持稀疏矩阵加速运算的硬件上可以进一步获得加速效果。
国冰提示:英伟达的第三代张量核心(Tensor Core)对于稀疏矩阵的运算有约5倍的性能提升。这一点我们在文章“RTX30系列,香吗”中有过介绍。
在模型内存足迹(memory footpr