这篇文章是关于21年的论文《A Survey of Quantization Methods for Efficient》的解读,因为论文篇幅较大,所以不会全文翻译,只提取关键点进行翻译讲解。本文虽然篇幅比较大,但对于了解模型量化却有比较全面的帮助,读者可以对照原论文一起阅读,对于不懂的,或者出错的地方,可在评论区中留言。
摘要:提出了在当下,内存或计算资源受限的情况下,如何将连续数值,分布至最小的比特数表示的离散数上,并且保证原先的准确率的问题。
I. INTRODUCTION:
在当前,我们通过堆积大量的参数,使我们的模型准确率得到明显的提高,然而,在资源受限,实时性要求的情况下,却存在壁垒,于是为了实现高精度,高效,实时的模型结构,需要思考重新模型的构建,于是,有以下几个方法可实施,同时对精度及泛化性进行了最佳的权衡。
A).Designing effificient NN model architectures
通过设计模型架构,包括基本单元及模块,但这需要人工设计,于是,AutoML(自动机器学习)及NAS(模型结构搜索)便诞生了。通过限制模型大小,自动找到合适正确的模型结构。
B).Co-designing NN architecture and hardware together