深度学习模型压缩与优化加速（Model Compression and Acceleration Overview）

Law-Yao

已于 2022-02-15 20:09:07 修改

阅读量4.6w

点赞数 74

分类专栏：深度学习模型压缩优化加速文章标签：人工智能模型压缩优化加速系统优化

于 2018-07-17 17:49:48 首次发布

本文链接：https://blog.csdn.net/nature553863/article/details/81083955

版权

本文详细探讨了深度学习模型的压缩与优化加速技术，包括模型压缩的线性量化、剪枝、NAS等方法，以及系统优化的Roofline模型、推理引擎如TensorRT、TVM和MNN的基础。同时介绍了网络剪枝和模型量化技术，如结构剪枝、非结构剪枝、INT8量化等，并提到了知识蒸馏和NAS在模型压缩中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 简介

深度学习（Deep Learning）因其计算复杂度或参数冗余，在一些场景和设备上限制了相应的模型部署，需要借助模型压缩、系统优化加速、异构计算等方法突破瓶颈，即分别在算法模型、计算图或算子优化以及硬件加速等层面采取必要的手段：

模型压缩算法能够有效降低参数冗余，从而减少存储占用、通信带宽和计算复杂度，有助于深度学习的应用部署，具体可划分为如下几种方法（量化、剪枝与NAS是主流方向）：

线性或非线性量化：1/2bits, INT4, INT8, FP16和BF16等；
结构或非结构剪枝：Sparse Pruning, Channel pruning和Layer drop等；
网络结构搜索 (NAS: Network Architecture Search)：ENAS、Evolved Transformer、NAS FCOS、NetAdapt等离散搜索，DARTS、AdaBert、Proxyless NAS、FBNet等可微分搜索，SPOS、FairNAS、BigNAS、HAT、DynaBert与AutoFormer等One-shot搜索；
其他：权重矩阵的低秩分解、知识蒸馏与网络结构精简设计（Mobile-net, SE-net, Shuffle-net, PeleeNet, VoVNet, MobileBert, Lite-Transformer, SAN-M）等；

系统优化是指在特定系统平台上，通过Runtime层面性能优化，以提升AI模型的计算效率，具体包括：

Op-level的算子优化：FFT Conv2d (7x7, 9x9), Winograd Conv2d (3x3, 5x5) 等；
Layer-level的快速算法：Sparse-block net [1] 等；
Graph-level的图优化：BN fold、Constant fold、Op fusion和计算图等价变换等；
优化工具与库（手工库、自动编译）：TensorRT (Nvidia), MNN (Alibaba), TVM (Tensor Virtual Machine), Tensor Comprehension (Facebook) 和OpenVINO (Intel) 等；

异构计算方法借助协处理硬件引擎（通常是PCIE加速卡、ASIC加速芯片或加速器IP），完成深度学习模型在数据中心或边缘计算领域的实际部署，包括GPU、FPGA或DSA (Domain Specific Architecture) ASIC等。异构加速硬件可以选择定制方案，通常能效、性能会更高，目前市面上流行的AI芯片或加速器可参考 [2]。显然，硬件性能提升带来的加速效果非常直观，例如2080ti与1080ti的比较（以复杂的PyramidBox人脸检测算法为例，由于2080ti引入了Tensor Core加速单元，FP16计算约提速36%）；另外，针对数据中心部署应用，通常会选择通用方案以构建计算平台（标准化、规模化支持业务逻辑计算），需要考虑是否有完善的生态支持，例如NVIDIA的CUDA，或者Xilinx的xDNN：

此外，从模型优化与系统优化的角度分析，领域算法建模与模型压缩通常紧密相关；推理优化手段的选择，通常也与基础设施或硬件平台相关联；而要想达到极致的模型压缩与推理优化效果，更需要硬件感知的反馈（Hardware-aware Compression）：

2. 基于Roofline Model评估理论性能

基于计算平台的峰值算力与最高带宽约束，以及AI模型的理论计算强度（前向推理的计算量与内存交换量的比值），Roofline model为AI模型区分了两个性能评估区间，即Memory-bound区间与Compute-bound区间：

Memory-bound：表示模型的计算强度相对较低，理论性能受限于存储访问。此时平台带宽越高，AI模型的访存开销越低。MobileNet、DenseNet属于典型的Memory-bound型模型；
Compute-bound：表示模型的计算强度超过了平台限制（Imax），能够100%利用平台算力。此时，平台算力越高，AI模型推理耗时越低。VGG属于典型的Compute-bound型模型；

3. 高性能推理引擎——TensorRT/TVM/MNN基础

TensorRT是NVIDIA推出的面向GPU应用部署的深度学习优化加速工具，即是推理优化引擎、亦是运行时执行引擎。TensorRT采用的原理如下图所示，可分别在图优化、算子优化、Memory优化与INT8 Calibration等层面提供推理优化支持，具体可参考[3] [4]：

TensorRT能够优化重构由不同深度学习框架训练的深度学习模型：

全图自动优化：首先，对于Caffe、TensorFlow、MXNet或PyTorch训练的模型，若包含的操作都是TensorRT支持的，则可以直接通过TensorRT生成推理优化引擎；并且，对于PyTorch模型，亦可采用Trtorch执行推理优化；此外，亦可借助ONNX中间格式，通过(TF, PyTorch) -> ONNX -> TensorRT方式，执行优化转换 [27]；等等；
全图手工优化：对于MXnet, PyTorch或其他框架训练的模型，若包含的操作都是TensorRT支持的，可以采用TensorRT API重建网络结构，并间接实现推理优化；
手工/自动分图：若训练的网络模型包含TensorRT不支持的Op：

手工分图：将深度网络手工划分为两个部分，一部分包含的操作都是TensorRT支持的，可以转换为TensorRT计算图。另一部分可采用其他框架实现，如MXnet或PyTorch，并建议使用C++ API实现，以确保更高效的Runtime执行；
Custom Plugin：不支持的Op可通过Plugin API实现自定义，并添加进TensorRT计算图，以支持算子的Auto-tuning，从而丰富TensorRT的Op-set完备性，例如Faster Transformer的自定义扩展 [26]；Faster Transformer是较为完善的系统工程，能够实现标准Bert/Transformer的高性能计算；

TFTRT自动分图：TensorFlow模型可通过tf.contrib.tensorrt转换，其中不支持的操作会保留为TensorFlow计算节点；FP32 TF TRT优化流程如下：

from tensorflow.contrib import tensorrt as trt

def transfer_trt_graph(pb_graph_def, outputs, precision_mode, max_batch_size):
    trt_graph_def = trt.create_inference_graph(
        input_graph_def = pb_graph_def,
        outputs = outputs,
        max_b

最低0.47元/天解锁文章