量化的概念:
量化(quantitative),这里不是指金融上的量化交易,而是指离散化。量化是一个总括术语,是用比 32 位浮点数更少的空间来存储和运行模型,并且 TensorFlow 量化的实现屏蔽了存储和运行细节。
神经网络训练时要求速度和准确率,训练通常在 GPU 上进行,所以使用浮点数影响不大。但是在预测阶段,使用浮点数会影响速度。量化可以在加快速度的同时,保持较高的精度。
量化网络的动机主要有两个。最初的动机是减小模型文件的大小。模型文件往往占据很大的磁盘空间,有时,每个模型都接近 200 MB,模型中存储的是分布在大量层中的权值。在存储模型的时候用 8