【论文阅读笔记】Deep Neural Network Compression with Single and Multiple Level Quantization_quantized neural networks: training neural network-CSDN博客

本文链接：https://blog.csdn.net/qq_19784349/article/details/82932781

全文概括

本文是《Quantized Convolution Neural Networks for Mobile Devices》和《Incremental Network Quantization：Towards Lossless CNN with Low-Precision Weights》的思想结合。参考了前者的分层量化和k-means聚类共享权值，参考了后者的INQ思想，即同一层分块量化。

在此文中，分层就是depth level，分块就是width level。

SLQ(Single-Level network Quantization)利用参数的分布来改善 width level （与INQ比，就多了一个参数聚类&权值共享的过程，效果和INQ差不多）。在 depth level ，用增量层次量化的方法，来补偿前面层数的量化损失（作者的想法是：对于极端小的bit来说，比如2-bit，量化的损失会很大，可能每层都同时量化会不好恢复，作者就想分层量化。但是这种量化方法的后果是进一步加剧INQ本就需要recover的re-train难度，最后的结果并不比INQ好。作者并未与INQ对比，但是其展示在CIFAR-10数据集上的ResNet-20上，MLQ比基线低了 $1.68\%$ ；但INQ的ResNet-18，不知道是不是在ImageNet上，比基线低了 $1.56\%$ ）。但对比INQ的好处在于用了权值共享，暂时不了解权值共享带来的计算优势。

在这里插入图片描述

量化步骤

k-means聚类：将参数用k-means算法聚成k类簇
weight partition：依据每个簇的量化loss，将簇分为两组（待量化组和re-train组）
weight share：将待量化组的每个簇用中心点作为权值共享值
re-train剩下的参数。

Intorduction

对于hight-bit，使用 single-level 量化方法对于极端小的bit，使用 multi-level 量化方法。

SLQ和MLQ都由四个步骤组成：clustering，loss based partition，weight-sharing，re-training。
SLQ和MLQ的主要区别在于，在基于loss的划分权重阶段，对于SLQ只划分簇，而对于MLQ，划分簇和层，所以SLQ可以认为是一种特殊的MLQ。
将参数用k-means算法聚成k类簇，然后依据每个簇的量化loss，将簇分为两组（待量化组和re-train组），将待量化组的每个簇用中心点作为权值共享值，re-train剩下的参数。
在这里插入图片描述