神经网络量化
文章平均质量分 93
神经网络量化
冰激凌很菜
这个作者很懒,什么都没留下…
展开
-
LSQ:LEARNED STEP SIZE QUANTIZATION论文学习
论文链接摘要在推理时运行低精度操作的深度网络具有功率和空间优势,但需要克服在精度降低时保持高精度的挑战。在这里,我们提出一种方法来训练这样的网络,学习步长量化,达到最高的精度AmageNet数据集当使用模型,从各种架构,权重和激活量化2,3或4位的精度,可以训练3位模型达到完全精度基线精度。我们的方法建立在现有的在量化网络中学习权重的方法的基础上,通过改进量化器本身的配置方式。具体来说,我们引入了一种新的方法来估计和缩放在每个权重和激活层的量化器步长下的任务损失梯度,这样它就可以与其他网络参数一起学习。原创 2022-04-08 11:15:16 · 1236 阅读 · 0 评论 -
APoT ADDITIVE POWERS-OF-TWO QUANTIZATION: AN EFFICIENT NON-UNIFORM DISCRETIZATION FOR NEURAL NETWORK
论文链接摘要我们提出了可加性2的N次幂(APoT)量化,这是一种有效的非均匀量化方案,用于神经网络中权重和激活的钟形和长尾分布。将所有量化水平约束为2的幂之和,具有较高的计算效率,与权值分布匹配良好。应用一个简单的裁剪函数重新参数化,生成一个定义更好的梯度来学习裁剪阈值。此外,还提出了将权值归一化的方法,以细化权值的分布,使训练更加稳定和一致。实验结果表明,我们提出的方法优于最先进的方法,甚至与全精度模型竞争,证明了我们提出的APoT量化的有效性。例如,我们在ImageNet上的4位量化ResNet-5原创 2022-04-07 11:57:27 · 3784 阅读 · 0 评论 -
Learning to Quantize Deep Networks by Optimizing Quantization Intervals with Task Loss 论文学习
论文链接摘要减少深度网络的激活位宽和网络的权重可以使它们高效地计算和存储在内存中,这在它们部署到移动设备等资源化设备上至关重要。然而,随着量化而减少的位宽通常会大大降低精度。为了解决这个问题,我们建议通过一个可训练的量化器来量化激活和离散它们。具体地说,我们参数化 quantization intervals(量化区间),并通过直接最小化网络的任务损失来获得其最优值。这种quantization-interval-learning量化区间学习(QIL)允许量化网络保持位宽低至4位的全精度(32位)网络的原创 2022-04-06 15:44:29 · 3418 阅读 · 0 评论 -
MQBench: Towards Reproducible and Deployable Model Quantization Benchmark 论文学习
论文链接摘要模型量化已成为加速深度学习推理不可或缺的技术。当研究人员继续推动量化算法的前沿时,现有的量化工作往往是不可重复和不可部署的。这是因为研究人员没有选择一致的训练流程,并且了硬件部署的需求。在这项工作中,我们提出了模型量化基准测试(MQBench),这是第一次评估、分析和基准测试模型量化算法的再现性和可部署性的尝试。我们为现实世界的部署选择了多个不同的平台,包括CPU、GPU、ASIC、DSP,并在一个统一的训练框架流程下评估广泛的最先进的量化算法。MQBench就像一个连接算法和硬件的桥梁。我原创 2022-04-01 16:53:13 · 1782 阅读 · 0 评论 -
F8NET: FIXED-POINT 8-BIT ONLY MULTIPLICATION FOR NETWORK QUANTIZATION 论文学习
论文链接:https://arxiv.org/abs/2202.05239摘要神经网络量化是一种很有前途的压缩技术,可以减少内存占用和节省能源消耗,并有可能导致实时推理。然而,在量化模型和全精度模型之间存在着性能差距。为了减少它,现有的量化方法需要高精度的INT32或全精度的乘法。这在内存、速度和所需能量方面引入了明显的成本。为了解决这些问题,我们提出了F8Net,一个新的量化框架,只包含固定点的8位乘法。为了推导我们的方法,我们首先讨论了使用不同格式的定点数的定点乘法的优点,并研究了相关定点数的原创 2022-03-31 17:08:40 · 1005 阅读 · 0 评论 -
I-BERT: Integer-only BERT Quantization 论文学习
论文链接:https://proceedings.mlr.press/v139/kim21d.html摘要基于转换器的模型,如BERT和RoBERTa,已经在许多自然语言处理任务中取得了最先进的结果。然而,它们的内存占用、推理延迟和功耗对于边缘甚至数据中心的有效推理都是禁止的。虽然量化是一个可行的解决方案,但以前基于Transformer的量化工作在推理中使用浮点算法,不能有效地利用仅整数的逻辑单元,如最近的Turing Tensor Cores,或传统的仅整数ARM处理器。在这项工作中,我们提出了I原创 2022-03-31 16:58:23 · 2607 阅读 · 1 评论 -
HAWQ-V3: Dyadic Neural Network Quantization论文学习
论文链接https://arxiv.org/abs/2011.10680摘要目前的低精度量化算法往往具有从浮点值到量化整数值的来回转换的隐藏代价。这种隐藏的成本限制了通过量化神经网络所实现的延迟改进。为了解决这个问题,我们提出了HAWQ-V3,一个新的混合精度纯整数量化框架。HAWQ-V3的贡献如下:(i)一个只有整数的推理,其中整个计算图只执行整数乘法、加法和位移动,不需要任何浮点运算甚至整数除法;(ii)一种新的硬件感知混合精度量化方法,其中比特精度是通过解决一个整数线性规划问题来计算的,该问原创 2022-03-30 19:22:29 · 1187 阅读 · 0 评论 -
SCGD: Blended Coarse Gradient Descent for Full Quantization of Deep Neural Networks论文学习
论文链接:https://arxiv.org/pdf/1808.05240.pdf?ref=https://githubhelp.com摘要量化深度神经网络(QDNNs)由于其比常规的全精度存储更低的内存和更快的推理速度而具有吸引力。为了保持相同的性能水平,特别是在低比特宽时,必须对qdnn进行重新训练。他们的训练包括分段常数激活函数和离散权值,因此出现数学上的挑战。我们引入了粗梯度的概念,并提出了混合粗梯度下降(BCGD)算法,用于训练完全量化的神经网络。粗梯度通常不是任何函数的梯度,而是一个人工的上原创 2022-03-30 15:43:57 · 505 阅读 · 0 评论 -
PACT: PARAMETERIZED CLIPPING ACTIVATION FOR QUANTIZED NEURAL NETWORKS 论文学习
摘要深度学习算法以牺牲大量的计算成本为代价,实现了较高的分类精度。为了解决这一成本,已经提出了一些量化方案——但这些技术大多集中于量化权重,与激活相比,这些权重的规模相对较小。本文提出了一种新的训练激活量化方案,该方案使神经网络能够在超低精度权值和激活下工作,而没有任何显著的精度下降。这种技术,PArameterized Clipping acTivation (PACT)即准参数化裁剪激活(PACT),使用一个激活裁剪参数α,在训练过程中进行优化,以找到正确的量化尺度。PACT允许将激活量化到任意比特精原创 2022-03-29 22:53:16 · 782 阅读 · 1 评论 -
HWGQ-Deep Learning with Low Precision by Half-wave Gaussian Quantization论文学习
论文链接:https://openaccess.thecvf.com/content_cvpr_2017/html/Cai_Deep_Learning_With_CVPR_2017_paper.html摘要研究了深度神经网络激活的量化问题一直是研究热点。对流行的二值量子化方法的检验表明,它由一个经典的非线性,双曲切线:一个分段常数函数,用于前馈网络计算,以及一个分段线性硬阈值函数,用于网络学习过程中的反向传播步骤。然后考虑了广泛使用的ReLU非线性的逼近问题。提出了一种half-wave Gaussia原创 2022-03-29 15:45:19 · 2908 阅读 · 0 评论 -
ABC-Net:Towards Accurate Binary Convolutional Neural Network 论文学习
Towards Accurate Binary Convolutional NeuralNetwork 论文学习原创 2022-03-28 18:52:42 · 1785 阅读 · 0 评论