神经网络参数量化,模型压缩论文笔记Training with Quantization Noise for Extreme Model Compression


论文地址

结论

本文介绍了一种新的神经网络参数量化的方法,能够极大压缩神经网络对内存的消耗。

本文提到两类量化方法,一类是标量定点化,就是常用的定点方式。通过变量的动态范围来确定变量需要的位数。文中提到了int4和int8。另一类是向量定点化,将一个列向量,分成多个子向量。子向量之间共用一套编解码本,能实现更大的压缩率。本文称为Product Quantization,简称为PQ。本文使用的是iPQ(iterative Product Quantization)。

本文有两种针对参数量化的训练方法,一种是QAT(Quantization Aware Training),一种是QN(Quantization Noise)

本文举例用了两个网络,语言模型Wikitext-103和图片分类器ImageNet-1k。Wikitext-103的性能指标是PPL,ImageNet-1k的性能指标是Top1准确率。分别对原始模型,三种量化方法,int4,int8,PQ量化和两种训练方法的组合。比较了模型压缩率和性能之间的tradeoff。

本文的三个结论

  • 1 Quant-Noise 能提高所有量化方式(int4,int8,PQ)的适应能力
  • 2 Quant-Noise 能使得PQ量化方法称为新的 state-of-art方法,能够在性能和模型大小之间取得绝佳的trade-off。
  • 3 Quant-Noise 训练int8和PQ结合的权重以及激活函数量化方式,能达到一个极致。ImageNet能实现 79.8%的top-1准确率,WikiText-103能实现21.1的PPL。
  • 总之,就是Quant-Noise很厉害,包括既有的量化方式(int4,int8 初级组合),新的量化方式(PQ 高级组合),以及结合的方式(int8+PQ 终极组合)主要的结论来自下面这张图。

在这里插入图片描述

简介

相关工作

模型压缩

神经网络参数量化

标量定点化

向量定点化 Product Quantization

传统PQ

迭代PQ

标量定点化和向量定点化结合

方法

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值