目录 问题引出 高效推断的算法 Pruning模型剪枝 步骤 剪去参数——形状不规则 剪去神经元——形状仍然规则 Why Pruning Pruning Changes Weight Distribution Weight clustering 聚类权重 霍夫曼编码 Quantization量化理论 Low Rank Approximation低秩近似 全连接层 Depthwise Separable Convolution Binary / Ternary Net 二元/三元网络 Winograd Transformation Winogradz转换 高效训练的算法 Parallelization 数据并行 模型并行 超参数并行 多机训练 Mixed Precision with FP16 and FP32 Model Distillation模型精馏 原理 原因分析:Teacher Network会提供額外的信息 Temperature for softmax DSD: Dense-Sparse-Dense Training Dynamic Computation 动态调整网络深度(Dynamic Depth)