"Quantization Mimic Towards Very Tiny CNN for Object Detection"这篇文章通过将知识蒸馏(Knowledge Distillation)与量化技术(Model Quantization)有效结合,能够诱导训练生成纤细、但性能良好的目标检测网络(主干网络通道数少、层数浅的R-FCN或Faster RCNN)。Quantization Mimic中量化技术能够缩小参数搜索空间,从而带来正则化效应,有效降低过拟合;而知识蒸馏则负责将复杂教师网络的知识迁移至学生网络。
Quantization Mimic的整体框架如上图所示,首先训练一个性能优越的全精度教师网络(如R-FCN-VGG);再将教师网络予以量化,获得量化后的Feature Maps输出;然后设计一个纤细的学生网络(如R-FCN-VGG-1-32),并予以量化;最后在诱导训练期间,比较教师网络与学生网络的量化输出(即L2 loss),完成知识迁移。
量化技术选择线性均匀方式,原因在于文章以R-FCN或Faster-RCNN作为benchmark,而这两种检测网络更关注ROI内部的激活响应,通常这些响应比较剧烈,因此均匀量化能够更好地保留输出信息。反观INQ采用的非均匀量化能够更好地描述一般性的激活或权重分布(非均匀、近高斯分布)。文章采用的量化表示如下&#x