NVIDIA INT4量化算法介绍

MLPerf是由来自学界和业界的多个组织(包括Google、Baidu、Intel、AMD、哈佛和斯坦福)共同发布的新型AI基准平台,用于衡量机器学习平台的AI性能,是目前业界最权威、最公正的AI性能评测平台之一。MLPerf目前已推出v0.5评测结果,参赛队伍包括Alibaba、NVIDIA、Google、Huawei等世界知名企业。

MLPerf详情见官方网站的介绍:https://www.mlperf.org/

其中,MLPerf Inference Resnet50-v1.5 Open Division在不限定模型结构的前提下,要求Top-1精度至少为76.46的99%(约75.7),并且要求模型部署在指定平台上的吞吐率(以QPS作为衡量)尽可能高。NVIDIA在MLPerf Inference Resnet50-v1.5 Open Division提交了基于INT4量化的比赛成绩,并取得了Top-1 Acc.=76.104的优秀评测结果。

NVIDIA的INT4量化算法概述如下:

  • 在Calibration dataset上执行模型的前向推理,收集每个layer输入激活的直方图分布;
  • 选取直方图分布的99.999%位点,作为数值分布范围,用以计算每个layer的INT4量化的scaling factor;
  • 根据新的scaling factor,重新完成每个layer的伪量化;
  • 在训练集上fine-tune伪量化模型,持续一个epoch;
  • 如此反复迭代,直至INT4伪量化训练收敛;

具体可参考:https://devblogs.nvidia.com/int4-for-ai-inference/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值