It’s All In the Teacher ZeroShot Quantization Brought Closer to the Teache

本文首次对零镜头量化技术的损失面进行了深入分析,揭示了损失项之间的协同困难和泛化能力问题。通过提出AIT(一切在教师)方法,仅使用KL损失和梯度淹没技术,解决了量化模型的更新问题,实现了接近全精度教师模型的性能。实验结果显示,AIT在多种数据集上超越了现有方法,展现出优越的性能。
摘要由CSDN通过智能技术生成


作者:Kanghyun Choi1, Hye Yoon Lee1, Deokki Hong1
学校:1College of Computing, Yonsei University,CLOVA影像视觉,CLOVAAI实验室,NAVER

Abstract

模型量化被认为是一种大大降低深度神经网络资源需求的有前途的方法。为了处理量化误差引起的性能下降,一种常用的方法是利用训练数据对量化网络进行微调。然而,在现实环境中,这种方法往往是不可行的,因为由于安全、隐私或保密性的问题,训练数据不可用。zero-shot量化解决了这些问题,通常是通过从全精度教师网络的权值中获取信息来补偿量化网络的性能下降。在本文中,我们首先分析了最先进的zero-shot量化技术的损失面,并提供了几个发现。与通常的知识蒸馏问题相比,zero-shot量化往往存在
1)同时优化多个损失项的困难
2)由于使用合成样本而导致的泛化能力较差。

此外,我们观察到,在训练量化网络时,许多权值不能超过舍入阈值,即使是为了更好的表现

分析最先进的zero-shot量化技术的损失面,是怎么分析的?有哪些发现?

1、 Introduce

深度神经网络量化[13,22,36,69]是提高深度神经网络(DNNs)计算效率的有力工具。当采用低比特宽度硬件设计[28、49、58]时,DNN的延迟和能耗可以大大

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

土豆娃potato

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值