深度学习模型压缩与优化方法

最新推荐文章于 2023-12-31 01:10:35 发布

你会知道我是谁

最新推荐文章于 2023-12-31 01:10:35 发布

阅读量781

点赞数

分类专栏：深度学习文章标签：深度学习机器学习

原文链接：https://blog.csdn.net/nature553863/article/details/81083955

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

深度学习（Deep Learning）因其计算复杂度或参数冗余，在一些场景和设备上限制了相应的模型部署，需要借助模型压缩、优化加速、异构计算等方法突破瓶颈。

模型压缩算法能够有效降低参数冗余，从而减少存储占用、通信带宽和计算复杂度，有助于深度学习的应用部署，具体可划分为如下几种方法（后续重点介绍剪枝与量化）：

   线性或非线性量化：1/2bits, int8 和 fp16等；
   结构或非结构剪枝：deep compression, channel pruning 和 network slimming等；
   网络结构搜索 (NAS: Network Architecture Search)：DARTS, DetNAS和NAS-FCOS等；
   其他：权重矩阵的低秩分解，知识蒸馏与网络结构简化（squeeze-net, mobile-net, shuffle-net）等；

模型优化加速能够提升网络的计算效率，具体包括：

Op-level的快速算法：FFT Conv2d (7x7, 9x9), Winograd Conv2d (3x3, 5x5) 等；
Layer-level的快速算法：Sparse-block net [1] 等；
优化工具与库：TensorRT (Nvidia), TVM (Tensor Virtual Machine), Tensor Comprehension (Facebook) 和 Distiller (Intel) 等；

异构计算方法借助协处理硬件引擎（通常是PCIE加速卡、ASIC加速芯片或加速器IP），完成深度学习模型在数据中心或边缘计算领域的实际部署，包括GPU、FPGA或DSA (Domain Specific Architecture) ASIC等。异构加速硬件可以选择定制方案，通常能效、性能会更高，目前市面上流行的AI芯片或加速器可参考。显然，硬件性能提升带来的加速效果非常直观，例如2080ti与1080ti的比较（以复杂的PyramidBox人脸检测算法为例，约提速36%）；另外，针对数据中心部署应用，通常选择通用方案，会有完善的生态支持，例如NVIDIA的CUDA，或者Xilinx的xDNN。

参考：
原文链接：https://blog.csdn.net/nature553863/article/details/81083955