Quantize Model 是一种模型加速(Model Acceleration)方法。
背景介绍
目前SOTA(State Of The Art,顶尖水平)的CNN都不适合在移动设备上部署,两点原因使CNN模型压缩和加速领域快速发展:
- 从AlexNet开始,CNN都以ImageNet上的分类准确率作为性能评估的主要甚至唯一标准,这使得CNN架构的发展都没有考虑模型复杂度和计算效率问题。
- 想要在智能手机,AR/VR设备,无人机等移动设备上部署CNN,需要模型大小比较小、时耗比较低,才满足设备的内存限制,保证用户体验。
为何量化能工作
神经网络的训练是一个不断对权重添加细微修正的过程,这种细微修正一般需要浮点精度才能完成 (尽管也有工作试图从这个阶段开始就量化,比如二值化神经网络)。
但是当用一个训练好的模型来做推断时,模型却能够很好地应对较大的输入噪声。比如为了识别照片中的物体,网络必须忽略所有的 CCD 噪声、光照变化,以及其它与之前训练样本之间的非本质差异,而只关注重要的相似之处。这种能力意味着神经网络似乎把低精度计算视为另一种噪声来源,而在数值格式精度较低的情况下仍能给出准确结果。、
为何需要量化
1. 神经网络可能会占据很大的存储空间,比如最初的浮点数格式的 AlexNet 大小就有 200 MB。这个大小几乎全部来自神经元连接

本文介绍了CNN模型量化的背景、原理和必要性,探讨了现有的量化压缩方法,特别是Google提出的八位量化方案,该方案能在保持性能的同时显著减少模型大小和计算资源需求,适用于移动设备上的CNN部署。
最低0.47元/天 解锁文章

5709

被折叠的 条评论
为什么被折叠?



