quantization 顶会文章简介 2018

本文汇总了多篇关于深度神经网络量化和压缩的研究,包括量化蒸馏、可微分量化、对称量化等方法,旨在实现高效运行于资源受限设备上的模型。文章探讨了量化对模型精度的影响,提出通过学习对称码本和优化量化点来减少信息损失,以及两步量化框架等策略,以提高低比特神经网络的性能。
摘要由CSDN通过智能技术生成

1、Model compression via distillation and quantization
在这里插入图片描述
深度神经网络持续地在图像分类到翻译或强化学习的任务上取得重大进展。其中一个受到大量关注的领域是在资源限制的环境下,如移动设备或嵌入式设备,来高效地执行深度模型。本文着眼于该问题,并提出了两个压缩算法,它同时利用权重量化和从更大的教师网络到更小的学生网络的蒸馏。作者提出的第一个方法被称为量化蒸馏,它在训练过程中通过将相对于教师网络来说的蒸馏损失加入到权重被量化为限制的等级集合的学生网络的训练过程中来进行蒸馏。第二个方法,可微分量化,通过SGD来优化量化点的位置,从而更好地拟合教师模型的表现。

2、SYQ: Learning Symmetric Quantization For Efficient Deep Neural Networks
在这里插入图片描述
对state-of-art的深度神经网络进行推断会消耗很多的计算资源,这使得它们很难被部署到受限的硬件环境上。降低这种复杂性的有效方法是在训练时通过使用有限的入口码本来近似权重参数和/或激活层的分布来量化它们。对精度非常低的网络,比如有着1到8位激活层的二元或三元网络,前向和后向函数间巨大的梯度不匹配会导致量化量化时的信息损失,从而出现明显的精度下降。本文提出了一种通过对特定权重子群的对称码本进行学习来减少这一损失的量化方法。这一子群通过它们在权重矩阵中的位置来确认,于是保持了低精度表征的硬件简单性。

3、Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
在这里插入图片描述
智能移动设备的日益普及以及基于深度学习的视觉识别模型日益曾长的令人畏惧的计算消耗之间的矛盾呼唤高效的在移动设备上的推理方案。作者提出了量化方法以及相应的共同设计的训练过程,它允许推断能够使用整型运算进行推理,且在同时保留接近浮点推理的端对端的模型精确度。仅使用整型运算的推断在经典的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值