MLPerf是由来自学界和业界的多个组织(包括Google、Baidu、Intel、AMD、哈佛和斯坦福)共同发布的新型AI基准平台,用于衡量机器学习平台的AI性能,是目前业界最权威、最公正的AI性能评测平台之一。MLPerf目前已推出v0.5评测结果,参赛队伍包括Alibaba、NVIDIA、Google、Huawei等世界知名企业。
MLPerf详情见官方网站的介绍:https://www.mlperf.org/
其中,MLPerf Inference Resnet50-v1.5 Open Division在不限定模型结构的前提下,要求Top-1精度至少为76.46的99%(约75.7),并且要求模型部署在指定平台上的吞吐率(以QPS作为衡量)尽可能高。NVIDIA在MLPerf Inference Resnet50-v1.5 Open Division提交了基于INT4量化的比赛成绩,并取得了Top-1 Acc.=76.104的优秀评测结果。
NVIDIA的INT4量化算法概述如下:
- 在Calibration dataset上执行模型的前向推理,收集每个layer输入激活的直方图分布;
- 选取直方图分布的99.999%位点,作为数值分布范围,用以计算每个layer的INT4量化的scaling factor;
- 根据新的scaling factor,重新完成每个layer的伪量化;
- 在训练集上fine-tune伪量化模型,持续一个epoch;
- 如此反复迭代,直至INT4伪量化训练收敛;