![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
模型压缩
文章平均质量分 86
介绍计算机视觉中剪枝,蒸馏等模型压缩技术
qgh1223
这个作者很懒,什么都没留下…
展开
-
Dynamic Sparse Training with Structured Sparsity
动态稀疏训练(Dynamic Sparse Training,DST)如RigL是SOTA稀疏训练方法,学习满足参数比密集网络少85%-95%权重的非结构化稀疏神经网络(SNN),同时维持相近的泛化性能。稀疏学习方法在训练和推断时都利用稀疏度,不像剪枝算法Learning n:m fine-grained structured sparse neural networks from scratch只在推断时利用稀疏度。原创 2024-01-29 18:09:21 · 925 阅读 · 0 评论 -
MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory
用于现实应用的深度神经网络部署通常需要高性能计算设备,如GPU和TPU。由于这些设备的高昂价格和能耗,不可接受的部署费用严格限制了深度模型在各种任务中使用。用于现实应用的深度神经网络部署通常需要高性能计算设备,如GPU和TPU。由于这些设备的高昂价格和能耗,不可接收的部署费用严格限制了深度模型在各种任务中使用,尤其是在没有足够电池支持的场景中。在低能耗的廉价物联网设备上部署深度神经网络称为许多工业应用中的实用解决方案。原创 2024-01-17 09:35:38 · 1007 阅读 · 0 评论 -
Sparse Iso-FLOP Transformations for Maximizing Training Efficiency
模型尺寸和训练数据的增加导致了很多深度学习的突破(AlexNet、ResNet、Transformer、GPT、AlphaGo等)。因此训练和部署深度神经网络的计算和内存占用呈指数级增长。为了能够部署大模型,已经引入了多种技术(例如蒸馏、量化、剪枝)来减少推理FLOPs。虽然这些技术提高了推理效率(测试精度与推理FLOPs)但相关训练成本仍然过高。本文中关注于提高DNN训练效率(测试精度与训练FLOPs)。近期的研究已经探索了使用权重稀疏性减少训练中花费的FLOPs。原创 2024-01-17 09:36:27 · 979 阅读 · 0 评论 -
Alternating Compressed/DeCompressed
深度神经网络在解决各种任务方面取得巨大进展,推动了研究和行业对部署这些模型的有效版本浓厚兴趣。为此,已经开发了完整的模型压缩家族,如剪枝和量化,这些方法现在都有硬件和软件支持。神经网络剪枝是本文的关注领域,这是一种由最长历史的压缩方法。剪枝的基本目标是获得很多连接通过设置为0而移除的神经网络,同时维持网络的精度。已经提出了无数种剪枝方法,目前已经了解到,将连接数量而言,许多流形的网络可以被压缩一个数量级以上,而不会造成显著的精度损失。原创 2024-01-15 16:40:15 · 1028 阅读 · 0 评论 -
Improved Feature Distillation via Projector Ensemble基于多个投影器集成的知识蒸馏
已有的知识蒸馏方法可以大致分为基于logit,基于特征和基于相似度的方法。根据之前研究,与其他两种算法相比,基于特征的方法通常可以提取出更好的学生网络。本文推测,模仿教师特征的过程为学生网络训练提供了更清晰的优化方向。尽管特征提取具有更好的性能,但缩小学生模型和教师模型特征空间之间差距仍然具有挑战性。为了提升学生模型特征学习能力,已经开发了各种通过设计更强大的目标函数并确定学生和教师模型层之间更有效的的连接的特征蒸馏方法。原创 2023-05-17 13:56:21 · 337 阅读 · 1 评论 -
TinyCLIP
大型视觉-语言模型(如CLIP)由于其显著的零样本迁移能力和在文本到图像生成方面前所未有的性能,最近获得了极大的关注。由于视觉和语言的极大复杂性,目前的方法往往采用大量的参数来赋予模型强大的跨模态能力。这反过来导致了这些模型在存储,内存和计算时间方面的高成本,这促使了对模型压缩的需求,使其在现实世界应用中更小更快。知识蒸馏作为一种核心模型压缩技术,在单模态领域已经得到广泛的研究和应用,然而它在多模态领域的潜力尚未被挖掘。首先类似于CLIP的多模态模型通常由两个分支组成:图像编码器和文本编码器。原创 2023-11-04 19:18:47 · 269 阅读 · 0 评论 -
Discriminator-Cooperated Feature Map Distillation for GAN Compression
图像生成任务将随机噪声或源域图像转换到另一个用户需要域的图像。近些年GAN蓬勃发展,产生了大量图像到图像翻译、风格迁移、图像生成等研究。图像生成在日常娱乐上由广泛应用。然而运行这些程序的平台通常有较差内存存储和有限计算能力的特点。然而GAN也因可学习参数和乘法累加运算(MAC)的激增而臭名昭著,这对部署基础设施的存储需求和计算能力提出了巨大挑战。为了解决上述问题使GAN有更好的服务生活能力,例如剪枝神经网络搜索量化的方法已经广泛探索以获得一个更小的生成器。原创 2023-04-25 22:48:11 · 207 阅读 · 0 评论 -
Calibrating the Rigged Lottery: Making All Tickets Reliable
虽然稀疏学习在各种深度学习任务上减少内存和减少推断时间上取得了成功,产生的稀疏模型的可靠性仍然是没有探索的。先前的研究表明深度神经网络往往过于自信,本文发现稀疏学习加剧了这个问题。使用较多的模型预测可靠性指标是Expected Calibration Error(ECE),测量模型预测的置信度与模型精度间差异。且ECE值越小意味着越高的置信度。模型过于自信的问题是太自信以至于不能注意到不正确的决策,使在例如自动医疗和自动驾驶等现实应用中的安全问题。本文首次研究稀疏学习中的可靠性问题。原创 2023-04-06 21:40:39 · 103 阅读 · 1 评论 -
[知识蒸馏] Data Efficient Stagewise Knowledge Distillation模型简介
文章目录IntroductionMethodExperimentIntroduction本文知识蒸馏方法(SKD)属于中间层蒸馏方法。特殊的是本文提出逐阶段(stagewise)训练,即训练学生网络时一次只训练一个部分(block),该方法可以在较少的数据集下取得较好的模型精度提升效果。MethodExperiment...原创 2021-01-17 22:37:41 · 240 阅读 · 0 评论