Adaptive Loss-aware Quantization for Multi-bit Networks

最新推荐文章于 2023-01-30 21:09:41 发布

JachinMa

最新推荐文章于 2023-01-30 21:09:41 发布

阅读量773

点赞数

本文链接：https://blog.csdn.net/JachinMa/article/details/106740085

版权

本文提出了一种通过减小量化误差来获得更好量化效果的自适应MBN(Multi-bit Networks)方法。

MBN方法，简单来说，是基于这样一个观察：网络中各层对量化粒度的敏感程度是不同的。那么假设我们给予的总的bit数不变的基础上，分别给对量化更敏感的层更多的bit数，较不敏感的层更少的bit数，从而达到更好的精度。

本文在这个思想上做出了改进：首先它优化的目标不是网络的损失，而是引入的量化误差，它的好处在于可以更好地修改赋予各层的bit数。其次它引入了剪枝方法，依次剪掉一些不必要的参数，从而可以减少分配给这些参数的bit数。

结果很夸张：
在这里插入图片描述
这里IW代表平均每个参数的bit数。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JachinMa

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Explicit Loss-Error-Aware Quantization

JachinMa的博客

02-26

413

本文提出了使用全精度网络而非量化网络的误差更新权重的方法，以及对INQ的改进。一般的量化网络，在训练时都会使用量化网络或混合网络(部分网络被量化)的误差来更新权重。本文则另辟蹊径，使用全精度网络的误差来更新权重。不仅取得了较好的结果，还避免了梯度的不匹配问题。其损失函数为：第一项是全精度网络的误差，第二项是全精度网络和量化网络的差异，第三项是量化权重和全精度权重的期望差。a1和a2是两个正...

Part2-Chapter8-预测数值型数据：回归-原理

JachinMa的博客

04-04

154

回归的目的是通过计算来预测数值型数据，本章讨论的是线性回归和局部加权回归。这两种方法由三部分构成：数据矩阵X和结果矩阵Y：回归系数矩阵：结果矩阵：对线性回归，找出w的方法是，找到一个w，使得预测结果u与真实结果y的差值最小。因为差值有正有负，因此我们用平方和最小的方式：用矩阵表示为：求其最小值，则对其求导，并令结果为0，推出：绘制结果为：蓝色为数据点，红线为预测回归方...

参与评论您还未登录，请先登录后发表或查看评论

Adaptive Loss-Aware Quantization for Multi-Bit Networks.pdf

10-19

CVPR论文

Fastai/Pytorch 的 BCEWITHLOGITSLOSS/AdaptiveLoss

NCU_wander的博客

08-15

327

最近在学习一篇有关于fastai的鉴别器知识，整理相关的有意思的可以学习的点。 1、鉴别器结构 def custom_gan_critic( n_channels: int = 3, nf: int = 256, n_blocks: int = 3, p: int = 0.15): "Critic to train a `GAN`." layers = [_conv(n_channels, nf, ks=4, stride=2), nn.Dropout2d(p / 2)] f

AdaptiveLoss in Fairseq

子燕若水的博客

12-08

187

除了缩放因子，AdaptiveLoss类还支持其他改善seq2seq模型训练的技术，如标签平滑和自适应softmax近似。总的来说，AdaptiveLoss类是Fairseq中训练seq2seq模型的一个有用工具，特别是在处理长的输入和目标序列时。AdaptiveLoss类使用一个用户指定的损失函数，如交叉熵损失，并根据输入和目标序列的长度对其进行缩放。然后，这个比例因子被用来对损失值进行加权，因此长序列的损失较高，短序列的损失较低。这可以提高模型学习长序列的能力，否则这些序列可能会因为体积大而损失值低。

【论文笔记】自适应位宽的多比特神经网络量化

weixin_43883815的博客

12-01

1312

论文名称：Adaptive Loss-aware Quantization for Multi-bit Networks 会议&年份：2020 CVPR 背景：网络中各层对量化粒度的敏感程度是不同的。那么假设给予的总的bit数不变的基础上，分别给对量化更敏感的层更多的bit数，较不敏感的层更少的bit数，从而达到更好的精度。主要方法：将权重和激活值都量化，并提出一种多比特网络上的，自适应的，最小化loss的量化模型方法（ALQ）（1）压缩方法：把权重和激活值量化到二进制基上——MBN （2

（八：2020.08.27）CVPR 2020 追踪之论文纲要（译）

Jojo论文基地

08-27

1万+

CVPR 2019 追踪之论文纲要（修正于2020.08.27）讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类，但就医学领域而言，对这些论文的筛选信息显然需要更加精细的把控，所以自己对这1400篇的论文做一个大致从名称上的筛选，希望能找到些能解决当前问题的答案。论文链接建议直接Google论文名，比去各种论文或顶会网站找不知道快捷多少。 Respect！论文目录论文概要 12-in-1 - Multi-Task Vision and Language Repre

（九：2020.08.27）CVPR 2019 追踪之论文纲要（译）

Jojo论文基地

08-28

8766

CVPR 2019 追踪之论文纲要（修正于2020.08.28）讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类，但就医学领域而言，对这些论文的筛选信息显然需要更加精细的把控，所以自己对这900篇的论文做一个大致从名称上的筛选，希望能找到些能解决当前问题的答案。论文链接建议直接Google论文名，比去各种论文或顶会网站找不知道快捷多少。下面皆为机器翻译，我会慢慢修正，但现在请结合。有兴趣的可以问我要处理这些论文并自动翻译的脚本。 Respect！论文目录论文概要

【论文阅读笔记】NeurIPS2020文章列表Part1

热门推荐

zincrain的博客

12-09

2万+

F1指数计算

yunxinan的专栏

04-18

2083

def f1_loss(predict, target): loss = 0 lack_cls = target.sum(dim=0) == 0 if lack_cls.any(): loss += F.binary_cross_entropy_with_logits( predict[:, lack_cls], target[:, lack_cls]) predict = torch.sigmo...

【论文笔记】：LLA: Loss-aware Label Assignment for Dense Pedestrian Detection

Activewaste

01-18

1362

LLA论文笔记 LLA: Loss-aware Label Assignment for Dense Pedestrian Detection Zheng 代码 Summary 标签分配策略对检测器的性能影响很大，现有研究都是在常规的通用目标检测上做，不适用于密集行人检测场景。作者提出了一种简单有效的分配策略，称为损失感知的标签分配（LLA），以提高人群场景中行人检测的性能。LLA首先计算每个锚点与GT对之间的分类（cls）和回归（reg）损失。然后将联合损失定义为cls和reg损失的加权总和作为分

论文笔记：ALA loss：Adaptive Logit Adjustment Loss for Long-Tailed Visual Recognition

m0_57459724的博客

08-02

1144

Adaptive Logit Adjustment Loss for Long-Tailed Visual Recognition

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析

00000cj的博客

01-30

619

给定一张输入图片 \(M\)，假设共有 \(J\) 个anchor和 \(I\) 个GT，在一次前向传播中，我们可以得到分类得分预测 \(S(\theta, M)\in \mathbb{R}^{J\times N}\)，其中 \(N\) 是类别数，\(\theta\) 是模型权重参数，同时可以得到bounding box预测 \(B(\theta, M)\in \mathbb{R}^{J\times 4}\)。

【阅读笔记】Meta-Learning with Task-Adaptive Loss Function for Few-Shot Learning-ICCV-2021

靓仔博客

01-14

2242

在少样本学习场景中，挑战在于当每个任务只有很少的标记示例可用时，在新的未见示例上泛化并表现良好。与模型无关的元学习（MAML）因其灵活性和对各种问题的适用性而成为具有代表性的少样本学习方法之一。然而，MAML 及其变体通常采用简单的损失函数，而没有任何辅助损失函数或正则化项来帮助实现更好的泛化。问题在于每个应用和任务可能需要不同的辅助损失函数，特别是当任务多样化和不同时。我们没有尝试为每个应用程序和任务手动设计辅助损失函数，而是引入了一个新的元学习框架，该框架具有适应每个任务的损失函数。我们提出的框架名为

Multi-Precision Quantized Neural Networks via Encoding Decomposition of {-1，+1}

星辰的博客

10-10

386

Multi-Precision Quantized Neural Networks via Encoding Decomposition of {-1，+1} 文章目录Multi-Precision Quantized Neural Networks via Encoding Decomposition of {-1，+1}IntroductionMulti-Precision Quantized...

论文理解：“Self-adaptive loss balanced Physics-informed neural networks“

RrS_G的博客

08-07

2053

译：自适应损失平衡物理信息神经网络-- Neurocomputing -- 2022 鉴于PINN的损失函数的各个权重是固定的，并且也有研究观察到PINN的训练效率敏感地依赖于与不同损失项相关的权重。但是一般的调整损失权重的方法非常耗时、费力，而且容易出现错误和遗漏。所以作者希望找到一种更方便的自适应学习损失权值的方法——自适应损失平衡物理信息神经网络(IbPINNs)。首先PINN的损失是：其中损失权重λ大小是固定的，以及作者通过数值实验研究了损失权值对PINN精度的影响。这

内容损失对抗损失_最强大的损失功能

weixin_26706653的博客

09-11

2784

内容损失对抗损失Recently, I came across the amazing paper presented in CVPR 2019 by Jon Barron about developing a robust and adaptive loss function for Machine Learning problems. This post is a review of tha...

图像检索 Deep Hashing

m0_59233432的博客

05-19

1538

在检索任务中，Metric Learing是为了得到具有很好表征能力的特征向量， Deep Hashing则是为了得到具有很好表征能力的二值向量。那么二值向量相比于一般的特征向量，优势在哪里呢？主要有两点：更少的存储空间：二值向量只有0和1, 可以节约大量的存储空间。以1024维的特征为例，如果是二值特征，只需要1024 / 8 = 128byte. 如果是浮点特征，需要的空间大小为1024 * 4 = 4KB。相比之下，二值向量的存储空间为浮点特征的1/32. 更高的检索效率：二值向量

论文笔记：Deep Fuzzy K-Means with Adaptive Loss and Entropy Regularization

GYY8023的博客

02-25

2242

Deep Fuzzy K-Means with Adaptive Loss and Entropy Regularization 1 摘要文章的主要研究内容(DFKM)： 1.讲模糊聚类加入到自动编码器中以提取更合适的深层特征。 2.文章提出的DFKM进行深层的特征提取和模糊聚类，并且同时产生更合适的非线性特征映射。 3.为了增强模型的鲁棒性，构造了自适应加权损失函数。 4.采用熵正则化的方法来...

Adaptive Normalized Risk-Averting Training for Deep Neural Networks