Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

本文探讨了一种仅使用整数运算的量化方法,用于提高神经网络推理效率。通过特定的量化方案、整数矩阵乘法和训练策略,确保量化后的模型在保持高精度的同时,降低计算延迟。实验表明,该方法尤其适用于MobileNets,在保持良好准确率的同时,优化了设备上的推理速度。
摘要由CSDN通过智能技术生成

摘要

作者提出了一种只使用整数运算的quantization方式,比起float point运算效率更高。同时提出了一种相应的训练方式来保证quantization之后的准确率。这篇文章的方法提升了accuracy和on-device latency之间的trade off,并且可以在MobileNets上使用。

1 introduction

作者总结了目前有效将庞大的神经网络应用在资源更为有限的移动端设备上的两种主流方式:1.神经全新的体量更小的神经网络,eg:MobileNets,SquueezeNet,ShuffleNet和DenseNet等等;2.将32-bit或64-bit的weights或activations缩小到精度更小的bit单元上,eg:8-bit。

在这篇文章当中,作者主要通过提升了在MobileNets上的accuracy和on-device latency之间的tradeoff来解决这个问题。作者主要采用的方法如下:

1. quantization scheme:将wights和activations全部quantize到8-bit,以及将部分的参数保留在32-bit,例如:bias vector;

2. quantized inference framework:可以在只能进行整数运算的硬件上高效运行,eg:Qualcomm Hexagon;

3.quantized training framework:和quantized inference framework相辅相成,减少quantization带来的accuracy loss;

4.提升了MobileNets在ARM CPUs上的accuracy和ond-device之间的tradeoff。

2 quantized inference

2.1 quantization scheme

quantization scheme就如同是从整数q到实数r的仿射变化: 

其中S和Z被称为quantization parameters。并且,同一个weights、activations array中的值使用相同的quantization parameters

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值