自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 【论文精读】ECCV2020 - 带有圆平滑标签的定向目标检测

定向目标检测因其在航空图像、场景文本和面部识别等方面的重要性,近年来受到越来越多的关注。在本文中,我们证明了现有的基于回归的旋转检测器存在不连续边界问题,这是直接由角周期性或角排序引起的。通过仔细的研究,我们发现其根本原因是理想的预测超出了所定义的范围。我们设计了一种新的旋转检测baseline,通过将角度预测从回归问题转化为精度损失小的分类任务来解决边界问题,从而设计了基于粗粒度的高精度角度分类。我们还提出了一种圆形光滑标签(CSL)技术来处理角度的周期性,并增加对相邻角度的容错性。

2023-04-05 16:00:41 767

原创 【论文精读】CVPR2021 - ReDet:一种用于航空目标检测的旋转等变检测器

最近,航空图像中的目标检测在计算机视觉中引起了广泛的关注。与自然图像中的物体不同,空中物体通常以任意方向分布。因此,检测器需要更多的参数来编码方向信息,这通常是高度冗余和低效的。此外,由于普通CNN没有明确地对方向变化进行建模,因此需要大量的旋转增强数据来训练准确的目标检测器。在本文中,我们提出了一种旋转等变检测器(ReDet)来解决这些问题,它明确编码了旋转等变性和旋转不变性。更准确地说,我们将旋转等变网络纳入检测器以提取旋转等变特征,这可以准确预测方向并导致模型尺寸的大幅减小。基于旋转等变特征,我们还。

2023-04-01 21:47:04 964

原创 【论文精读】CVPR2022 - 解耦知识蒸馏

目前的蒸馏方法主要基于从中间层蒸馏深层特征,而logit蒸馏的意义被大大忽视。为了为研究logit蒸馏提供一个新的观点,我们将经典的KD损失重新表述为两部分,即目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)。我们通过实证研究和证明了这两部分的影响: TCKD转移了关于训练样本的“困难”的知识,而NCKD是logit蒸馏工作有效的主要原因。更重要的是,我们揭示了经典的KD损失是一个耦合公式,它(1)抑制了NCKD的有效性,(2)限制了平衡这两部分的灵活性。

2023-03-21 17:53:01 1276

原创 旋转不变性与旋转等变性

最近在做旋转目标检测,看到论文里说很多工作都是致力于提取旋转不变特征,特此记录两个术语的定义。

2023-03-21 11:12:06 937

原创 【论文速递】CVPR2021 - ReDet:一种用于航空目标检测的旋转等变检测器

最近,航空图像中的目标检测在计算机视觉中引起了广泛的关注。与自然图像中的物体不同,空中物体通常以任意方向分布。因此,检测器需要更多的参数来编码方向信息,这通常是高度冗余和低效的。此外,由于普通CNN没有明确地对方向变化进行建模,因此需要大量的旋转增强数据来训练准确的目标检测器。在本文中,我们提出了一种旋转等变检测器(ReDet)来解决这些问题,它明确编码了旋转等变性和旋转不变性。更准确地说,我们将旋转等变网络纳入检测器以提取旋转等变特征,这可以准确预测方向并导致模型尺寸的大幅减小。基于旋转等变特征,

2023-03-20 00:23:34 381

原创 【论文速递】CVPR2022 - 多少观察才足够?用于轨迹预测的知识蒸馏

准确预测未来的人类位置是现代视频监控系统的一项基本任务。当前最先进的模型通常依赖于过去跟踪位置的“历史记录”(例如,3到5秒)来预测未来位置的合理序列(例如,最多5秒)。由于输入轨迹的收集涉及机器感知(即检测和跟踪),因此在拥挤的场景中可能会累积不正确的检测和碎片错误,从而导致跟踪漂移。在这种情况下,模型将被馈送损坏和嘈杂的输入数据,从而致命地影响其预测性能。在这方面,我们专注于在仅使用少量输入观察时提供准确的预测,从而潜在地降低与自动感知相关的风险。为此,

2023-03-14 12:01:47 331

原创 【论文速递】WACV2023- 用于多任务学习的在线知识蒸馏

多任务学习(MTL)在计算机视觉任务中得到了广泛的应用。我们训练一个骨干网络来学习不同任务的共享表示,例如语义分割、深度和正态估计。在许多情况下,负传输,即目标域中的性能受损,导致MTL精度低于训练相应的单任务网络。为了缓解这个问题,我们提出了一种在线知识蒸馏方法,其中单任务网络与MTL网络同时训练以指导优化过程。我们建议使用自适应特征蒸馏(AFD)损失和在线任务加权(OTW)方案为每个任务选择性地训练层。这种任务特征蒸馏使MTL网络能够以与单任务网络类似的方式进行训练。

2023-03-13 20:49:41 615

原创 【论文速递】TPAMI2023 - 基于关系匹配的广义知识蒸馏

训练有素的深度神经网络(又名“老师”)的知识对于学习类似的任务很有价值。知识蒸馏从教师那里提取知识,并将其与目标模型(又称“学生”)整合,从而扩展学生的知识并提高其学习效率。我们不是强迫老师和学生一起完成同样的任务,而是从通用标签空间训练教师并提取它的知识 ——在这个“广义知识蒸馏(GKD)”中,老师和学生的类别可能相同、完全不同或部分重叠。我们声称实例之间的比较能力是跨任务传递知识的基本因素,并提出了一种相互关联的局部半分类器蒸馏(REFILLED)方法,该方法解耦了嵌入的GKD流和顶层分类器。特别是,

2023-03-10 20:29:23 340

原创 【论文速递】TGRS2023 - 用于遥感图像中高效目标检测的实例感知蒸馏

实际应用要求目标检测模型能够以低开销实现高性能。在这种情况下,知识蒸馏通过将知识从繁琐的教师模式转移到轻量级学生模式来展示有利的潜力。然而,以前的蒸馏方法受到遥感图像中大量误导性背景信息的困扰,而忽略了对不同实例之间关系的研究。在本文中,我们提出了一种实例感知蒸馏(简称InsDist)方法来推导出高效的遥感目标检测器。我们的InsDist结合了基于特征和基于关系的知识蒸馏,以充分利用从教师到学生的知识转移中与实例相关的信息。

2023-03-08 19:29:32 597

原创 【论文速递】CVPR2021 - 重温知识蒸馏:一个继承和探索的框架

知识蒸馏 (KD) 是一种将知识从教师模型或融合转移到学生模型的流行技术。它的成功通常归功于教师模型和学生模型的类分布或中间特征表示之间的相似性/一致性的特权信息。然而,直接推动学生模型模仿教师模型的概率/特征,在很大程度上限制了学生模型学习未发现的知识/特征。在本文中,我们提出了一种新的继承和探索知识蒸馏框架(IE-KD),其中学生模型分为继承和探索两部分。继承部分在相似性损失的情况下学习,以将现有的学习知识从教师模型转移到学生模型,而鼓励探索部分学习与具有不相似性损失的继承表示不同的表示。

2023-02-21 23:02:02 339

原创 【论文速递】CVPR2021 - 通过自我教育来完善自己:通过自我知识的蒸馏来完善特征

知识蒸馏是一种将知识从预训练的复杂教师模型转移到学生模型的方法,因此较小的网络可以在部署阶段取代大型教师网络。为了减少训练大型教师模型的必要性,最近的文献引入了自我知识蒸馏,该算法逐步训练学生网络,以便在没有预先训练的教师网络的情况下提炼自己的知识。虽然自我知识蒸馏主要分为基于数据增强的方法和基于辅助网络的方法,但数据增强方法在增强过程中会丢失其局部信息,这阻碍了其对各种视觉任务(如语义分割)的适用性。此外,这些知识蒸馏方法没有收到在对象检测和语义分割社区中普遍存在的细化特征图。

2023-02-21 21:49:42 252

原创 【论文速递】CVPR2021 - 用于视觉识别的公平特征蒸馏

公平性正成为计算机视觉越来越重要的问题,尤其是在与人类相关的决策系统中。然而,实现算法公平,使模型产生对受保护群体的无歧视结果,仍然是一个未解决的问题。在本文中,我们设计了一种系统的方法,通过视觉识别任务的特征蒸馏来减少算法偏差,称为基于MMD的公平蒸馏(MFD)。虽然蒸馏技术已被广泛用于提高预测准确性,但据我们所知,还没有明确的工作也试图通过蒸馏来提高公平性。此外,我们对知识蒸馏和公平的影响给出了我们的MFD的理论依据。

2023-02-21 10:09:39 276

原创 【论文速递】CVPR2021 - 用于目标检测的通用实例蒸馏

近年来,知识蒸馏已被证明是模型压缩的有效解决方案。这种方法可以使轻量级学生模型获取从繁琐的教师模型中提取的知识。然而,以前的蒸馏检测方法对不同检测框架的泛化性较弱,并且严重依赖地面实况(GT),忽略了实例之间的有价值的关系信息。因此,我们提出了一种基于判别实例的检测任务的新蒸馏方法,而不考虑GT区分的正负,称为通用实例蒸馏(GID)。我们的方法包含一个通用实例选择模块(GISM),以充分利用基于特征,基于关系和基于响应的知识进行蒸馏。

2023-02-19 22:20:53 136

原创 【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏

知识蒸馏成为提高小型神经网络性能的事实标准。以前的大多数作品都提出以一对一的空间匹配方式将表征特征从教师回归到学生。然而,人们往往会忽略这样一个事实,即由于架构差异,同一空间位置的语义信息通常会有所不同。这极大地破坏了一对一蒸馏方法的基本假设。为此,我们提出了一种新的一对多空间匹配知识蒸馏方法。具体来说,我们允许将教师特征的每个像素提炼到学生特征的所有空间位置,因为它的相似性是由目标感知变压器生成的。我们的方法在各种计算机视觉基准测试(如ImageNet,Pascal VOC和COCOStuff10k)上大

2023-02-16 20:50:49 426

原创 【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏

当前用于语义分割的知识蒸馏(KD)方法通常指导学生模仿教师从个人数据样本生成的结构化信息。但是,它们忽略了对 KD 有价值的各种图像中像素之间的全局语义关系。该文提出一种新型的跨图像关系KD(CIRKD),该算法侧重于在整个图像之间传递结构化像素到像素和像素到区域的关系。动机是,一个好的教师网络可以在全局像素依赖方面构建一个结构良好的特征空间。CIRKD使学生模仿教师结构更好的语义关系,从而提高分割性能。在Cityscapes,CamVid和Pascal VOC数据集上的实验结果表明,我们提出的方法对最先进

2023-02-14 23:14:06 986

原创 【论文速递】CVPR2022 - 检测器的局部和全局知识蒸馏

知识蒸馏已成功应用于图像分类。然而,目标检测要复杂得多,大多数知识蒸馏方法都失败了。在本文中,我们指出,**在目标检测中,教师和学生的特征在不同领域差异很大,尤其是在前景和背景方面。**如果我们将它们平均蒸馏,特征图之间的不均匀差异将对蒸馏产生负面影响。因此,我们提出了局部和全局蒸馏(FGD)。**局部蒸馏将前景和背景分开,迫使学生专注于教师的关键像素和通道。全局蒸馏重建不同像素之间的关系,并将其从教师转移到学生,补偿局部蒸馏中缺失的全局信息。**由于我们的方法只需要计算特征图上

2023-02-11 13:12:33 325

原创 【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏

知识蒸馏旨在将一个强大而繁琐的教师模型压缩成一个轻量级的学生模型,而不会牺牲太多的表现。为此,在过去几年中人们提出了各种方法,通常使用精心设计的知识表示,这反过来又增加了模型开发和解释的难度。相比之下,我们凭经验表明,简单的知识蒸馏技术足以显着缩小师生绩效差距。我们直接从预训练教师模型中重用判别分类器进行学生推理,并通过与单一l2损失的特征对齐来训练学生编码器。通过这种方式,学生模型能够实现与教师模型完全相同的性能,前提是他们提取的特征完全对齐。

2023-02-09 18:27:42 187

原创 【论文速递】CVPR2022 - 解耦知识蒸馏

最先进的蒸馏方法主要基于从中间层蒸馏深层特征,而Logit蒸馏的重要性则被大大忽视。为了提供研究logit蒸馏的新观点,我们将经典KD损失重新表述为两部分,即目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)。我们实证调查并证明了两部分的效果:TCKD传递有关训练样本“难度”的知识,而NCKD是logit蒸馏工作的突出原因。更重要的是,我们揭示了经典的KD损失是一个耦合公式,它(1)抑制了NCKD的有效性,(2)限制了平衡这两部分的灵活性。

2023-02-08 17:00:16 438

原创 【论文速递】CVPR2022 - 用于密集物体检测的定位蒸馏

知识蒸馏(KD)在目标检测中学习紧凑模型方面的强大能力。以往的目标检测KD方法主要集中在模仿模仿区域内的深度特征,而不是模拟分类logit,因为它在提取定位信息方面效率低下,而且改进微不足道。本文通过重构定位知识蒸馏过程,提出了一种新的定位蒸馏(LD)方法,该方法可以有效地将定位知识从教师传递给学生。此外,**我们还启发式地引入了有价值的定位区域的概念,可以帮助选择性地提取特定区域的语义和定位知识。结合这两个新组件,我们首次证明了logit模拟可以优于特征模仿,而定位知识蒸馏在提取对象检测器方面比语义

2023-02-05 13:14:46 349

原创 【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏

最近的半监督目标检测(SS-OD)方法主要基于自我训练,即通过教师模型在未标记的数据上生成硬伪标签作为监督信号。尽管他们取得了一定的成功,但半监督学习中有限的标记数据扩大了目标检测的挑战。我们通过实证实验结果分析了这些方法遇到的挑战。我们发现大量的假阴性样本和较差的定位精度缺乏考虑。此外,物体大小的巨大差异和类不平衡(即背景和物体之间的极端比例)阻碍了现有技术的性能。此外,我们通过引入一种新颖的方法,即**尺度等效蒸馏(SED)来克服这些挑战,这是一种简单而有效的端到端知识蒸馏框架,可应对较大的对象大

2023-02-03 17:03:24 442

原创 【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习

联邦蒸馏是联邦学习中的一种新的算法范式,使客户端能够训练不同的网络架构。在联邦蒸馏中,学生可以通过提取客户端对公共服务器数据的平均预测来学习他人的信息,而不会牺牲他们的个人数据隐私。然而,仅使用平均软标签作为所有学生的老师的方法会受到客户端草案的影响,尤其是当本地数据是异构时。软标签是模型之间的平均分类分数。在本文中,我们提出了一个新的框架FedMMD(基于多教师和多特征蒸馏的联邦学习),该框架对客户端之间的不同数据分布具有鲁棒性。FedMMD扩展了FD训练程序中的聚集阶段和蒸馏阶段。

2023-02-01 16:43:04 577 1

原创 【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

知识蒸馏(KD)是一种有效的模型压缩技术,是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下,相互学习(ML)提供了一种替代策略,即使没有强大但静态的教师网络,也可以从共享知识中使多个简单的学生网络受益。在这些发现的激励下,我们提出了一个单教师、多学生的框架,该框架利用 KD 和 ML 来实现更好的表现。此外,我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能,我们使用三种不同版本的师生网络对基准生物医学分类(MSI与MSS)和目标检测(息肉检测)任务进行了广泛的实验。

2023-01-28 18:18:19 308 1

原创 【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。

2023-01-20 17:07:54 96

原创 【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏

知识蒸馏是通过设计的损失函数将教师网络学到的有效知识转移到学生网络中,帮助学生网络以更低的计算成本获得更好的性能。但是,当学生网络和教师网络在结构和计算量上存在很大差异时,以前的知识蒸馏方法很难有效提高学生网络性能。为了改善这种情况,本文提出了轻量级网络的结构化注意力蒸馏。结构化注意力蒸馏对模型中的特征进行通道分组,通过细化空间注意力图,帮助学生网络学习教师网络的特征提取能力。我们提出的方法是在CIFAR100和大规模人脸识别验证集(LFW,CFP-FP,Age-DB)上进行评估的。

2023-01-17 17:08:32 379 1

原创 【论文速递】TPAMI2022 - 自蒸馏:迈向高效紧凑的神经网络

在过去的几年里,深度神经网络取得了显著的成就。然而,神经网络精度的突破总是伴随着计算和参数的爆炸式增长,这导致了模型部署的严重限制。在本文中,我们提出了一种名为自蒸馏的新型知识蒸馏技术来解决这个问题。自蒸馏在神经网络的不同深度附加了几个注意力模块和浅层分类器,并将知识从最深的分类器提炼到较浅的分类器。与传统的知识蒸馏方法不同,教师模型的知识转移到另一个学生模型中,自我蒸馏可以被视为同一模型中的知识转移 - 从深层到浅层。此外,自蒸馏中的附加分类器允许神经网络以动态方式工作,从而导致更高的加速度。

2023-01-15 21:21:33 1515 6

原创 通过PID查看对应的docker

在nvidia-smi发现GPU占用时,想要寻找是哪个docker在使用,通过PID寻找。

2022-12-03 00:31:04 1952

Localization-Distillation-for-Dense-Object-Detection

知识蒸馏(KD)在目标检测中学习紧凑模型方面的强大能力。以往的目标检测KD方法主要集中在模仿模仿区域内的深度特征,而不是模拟分类logit,因为它在提取定位信息方面效率低下,而且改进微不足道。本文通过重构定位知识蒸馏过程,提出了一种新的定位蒸馏(LD)方法,该方法可以有效地将定位知识从教师传递给学生。此外,<u>**我们还启发式地引入了有价值的定位区域的概念,可以帮助选择性地提取特定区域的语义和定位知识。结合这两个新组件,我们首次证明了logit模拟可以优于特征模仿,而定位知识蒸馏在提取对象检测器方面比语义知识更重要、更有效。**</u>我们的蒸馏方案简单而有效,可以很容易地应用于不同的密集物体探测器。实验表明,我们的LD可以在COCO基准测试中将GFocal-ResNet-50的AP分数从1.40提高到1.42,而不会牺牲推理速度。我们的源代码和预训练模型可在 https://github.com/HikariTJU/LD 公开获得。

2023-02-05

Scale-Equivalent-Distillation-for-Semi-Supervised-Object-Detecti

最近的半监督目标检测(SS-OD)方法主要基于自我训练,即通过教师模型在未标记的数据上生成硬伪标签作为监督信号。尽管他们取得了一定的成功,但半监督学习中有限的标记数据扩大了目标检测的挑战。我们通过实证实验结果分析了这些方法遇到的挑战。我们发现大量的假阴性样本和较差的定位精度缺乏考虑。此外,物体大小的巨大差异和类不平衡(即背景和物体之间的极端比例)阻碍了现有技术的性能。此外,我们通过引入一种新颖的方法,即<u>**尺度等效蒸馏(SED)来克服这些挑战,这是一种简单而有效的端到端知识蒸馏框架,可应对较大的对象大小差异和类不平衡。**</u>与之前的作品相比,SED有几个吸引人的好处。(1) SED 强加一致性正则化来处理大规模方差问题。(2)SED缓解了假阴性样本的噪声问题和较差的定位精度。(3)重新加权策略可以隐式筛选未标注数据的潜在前景区域,以减少类失衡的影响。广泛的实验表明,SED在不同数据集上的表现始终优于最近最先进的方法,并具有显着的利润。例如,当在MS-COCO上使用10%和5%的标记数据时,它比监督对应物高出10 mAP以上。

2023-02-03

FedMMD-Heterogenous-Federated-Learning-based-on-Multi-teacher

联邦蒸馏是联邦学习中的一种新的算法范式,使客户端能够训练不同的网络架构。在联邦蒸馏中,学生可以通过提取客户端对公共服务器数据的平均预测来学习他人的信息,而不会牺牲他们的个人数据隐私。然而,仅使用平均软标签作为所有学生的老师的方法会受到客户端草案的影响,尤其是当本地数据是异构时。软标签是模型之间的平均分类分数。在本文中,我们提出了一个新的框架FedMMD(基于多教师和多特征蒸馏的联邦学习),该框架对客户端之间的不同数据分布具有鲁棒性。FedMMD扩展了FD训练程序中的聚集阶段和蒸馏阶段。与在所有学生中共享同一教师的方法相反,FedMMD 为每个需要进行多次独立蒸馏的学生分配不同的教师。由于每个模型都可以单独视为教师,FedMMD解决了共享教师仅具有平均性能由平均软标签引起的问题。同时,在每次蒸馏中,FedMMD没有使用模型在公共数据上的平均软标签作为教师,而是引入了中间表示和软标签的组合作为蒸馏目标,以了解教师的更多信息细节。我们在两个公共数据集(CIFAR10和MINIST)上的广泛实验证明了所提出的方法的性能。

2023-02-01

Augmenting Knowledge Distillation with Peer-to-Peer Mutual Learn

知识蒸馏(KD)是一种有效的模型压缩技术,是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下,相互学习(ML)提供了一种替代策略,即使没有强大但静态的教师网络,也可以从共享知识中使多个简单的学生网络受益。在这些发现的激励下,我们提出了一个单教师、多学生的框架,该框架利用 KD 和 ML 来实现更好的表现。此外,我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能,我们使用三种不同版本的师生网络对基准生物医学分类(MSI与MSS)和目标检测(息肉检测)任务进行了广泛的实验。以提议的方式训练的学生网络集合比单独使用 KD 或 ML 训练的学生集合取得了更好的结果,从而确立了通过学生之间的点对点学习增强教师向学生的知识转移的好处。

2023-01-28

Multi-Stage Model Compression using Teacher Assistant and Distil

大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。首先,我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化 TA 模型。然后,使用 TA 模型作为老师,我们对学生模型上的隐藏层和输出层执行相同的提炼。通过这种方式,我们通过减小模型的大小,同时逐步增加层的深度来提高学生模型的性能。实验表明,所提方法能够将简单的CNN模型压缩到参数比原始神经网络约1/7的大小,同时保持测试数据集相同的分类精度。在使用瓶颈架构的ResNet的学生模型中,所提出的方法优于教师模型,教师模型的参数数量大约是所提模型的8倍。此外,与现有研究相比,所提出的方法在学生模型中取得了最佳性能。

2023-01-20

Structured Attention Knowledge Distillation for Lightweight Netw

知识蒸馏是通过设计的损失函数将教师网络学到的有效知识转移到学生网络中,帮助学生网络以更低的计算成本获得更好的性能。但是,当学生网络和教师网络在结构和计算量上存在很大差异时,以前的知识蒸馏方法很难有效提高学生网络性能。为了改善这种情况,本文提出了轻量级网络的结构化注意力蒸馏。结构化注意力蒸馏对模型中的特征进行通道分组,通过细化空间注意力图,帮助学生网络学习教师网络的特征提取能力。我们提出的方法是在CIFAR100和大规模人脸识别验证集(LFW,CFP-FP,Age-DB)上进行评估的。与其他蒸馏方法相比,我们提出的方法在CIFAR100和人脸识别验证集上获得了更好的精度。

2023-01-17

Self-Distillation: Towards Efficient and Compact Neural Networks

【论文速递】TPAMI2022 - 自蒸馏:迈向高效紧凑的神经网络 在过去的几年里,深度神经网络取得了显著的成就。然而,神经网络精度的突破总是伴随着计算和参数的爆炸式增长,这导致了模型部署的严重限制。在本文中,我们提出了一种名为自蒸馏的新型知识蒸馏技术来解决这个问题。自蒸馏在神经网络的不同深度附加了几个注意力模块和浅层分类器,并将知识从最深的分类器提炼到较浅的分类器。与传统的知识蒸馏方法不同,教师模型的知识转移到另一个学生模型中,自我蒸馏可以被视为同一模型中的知识转移 - 从深层到浅层。此外,自蒸馏中的附加分类器允许神经网络以动态方式工作,从而导致更高的加速度。实验表明,自蒸馏在各种神经网络和数据集上具有一致且显著的有效性。平均而言,在CIFAR100和ImageNet上观察到3.49%和2.32%的精度提升。此外,实验表明,自蒸馏可以与其他模型压缩方法相结合,包括知识蒸馏、修剪和轻量级模型设计。

2023-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除