2022 (IEEE) Distilling a Powerful Student Model via Online Knowledge Distillation

发布平台:IEEE Transactions on Neural Networks and Learning Systems

论文链接:https://ieeexplore.ieee.org/document/9729452

代码链接:https://github.com/SJLeo/FFSD

创新点

提出一种新的在线知识蒸馏方法(FFSD),由特征融合自蒸馏两部分组成,分别解决了在线蒸馏中的两个问题:1.在线蒸馏采用表现最好的学生,忽略了其他学生的信息2.在线蒸馏构建一个集成模型,增加了部署过程中的计算复杂度

FFSD将在线蒸馏网络分为领导学生共同的学生集,通过特征融合模块帮助领导学生学习。采用自蒸馏模块将深层特征图转换为浅层特征图,鼓励浅层特征图模拟深层转换的特征图,以帮助共同学生集更好的学习。

问题

在这里插入图片描述
(b)表示的是相互学习的在线蒸馏。©表示的是集成学习的在线蒸馏。

相互学习的在线蒸馏对齐所有学生的软输出,允许消息在他们之间传递,采用性能最优的学生模型作为最终模型。然而,消息传递并不能保证一个学生携带了集合的所有信息,因此限制了蒸馏装置的性能。

集成学习通过整合所有学生的输出构建一个虚拟教师,然后重新培养每一个学生。然而,训练过程中必须保留所有的学生模型,以便获得他们的输出,为此增加了内存消耗和计算复杂度

方法

论文设计了具有多样性增强策略的特征融合模块自蒸馏模块,以在一个统一的框架内解决上述问题。具体描述,论文构建了一个共同的学生集和一个领导学生

学生1和学生2通过相互学习进行训练。通过将学生1的注意力转移到学生2上,增强学生之间的多样性。特征融合模块将所有学生的信息融合成一个融合的特征图以帮助领导学生学习。

学生

共同学生集与领导学生是训练前事先划分好的。例:3个ResNet18同时开始训练,前两个ResNet18作为共同学生集,最后一个ResNet18作为领导学生。后续只有领导学生被保留并且进行部署。

准备工作

在这里插入图片描述表示总的学生集合,它们具有相同的网络结构,对于每个模型在这里插入图片描述,第在这里插入图片描述层特征图的输出表示为在这里插入图片描述,给定一个带有在这里插入图片描述个类的标记数据集在这里插入图片描述,将学生在这里插入图片描述产生的逻辑输出记为在这里插入图片描述

在这里插入图片描述表示普通的在这里插入图片描述输出结果(T=1),在这里插入图片描述表示软化的在这里插入图片描述输出结果。
在这里插入图片描述作为领导学生,并将剩余的在这里插入图片描述作为一个共同的学生集。
共同学生之间相互学习的训练目标在这里插入图片描述定义为:
在这里插入图片描述
在这里插入图片描述表示与在这里插入图片描述之间的交叉熵,在这里插入图片描述表示两个共同学生之间的逻辑蒸馏。

特征融合

为了充分利用共同学生集中的丰富信息,鼓励领导学生学习两方面特征内容:1.共同学生集输出特征映射编码后的紧凑特征映射(该紧凑特征映射与领导学生的特征映射尺寸相同)。2.共同学生集的串联特征图(对领导学生输出的特征映射进行解码使其匹配)。

在这里插入图片描述
在这里插入图片描述表示共同学生集的特征集合,
在这里插入图片描述共同学生1 的第在这里插入图片描述层的特征输出,
在这里插入图片描述共同学生2的第在这里插入图片描述层的特征输出,
在这里插入图片描述表示共同学生集串联的特征映射,
在这里插入图片描述是共同学生集的融合特征(经过特征映射编码后的紧凑特征映射)。
在这里插入图片描述表示领导学生的第在这里插入图片描述层的特征输出,
在这里插入图片描述是领导学生解码后的特征输出。
在这里插入图片描述表示自动编码模块(对串联的共同学生集合特征编码,对领导学生特征解码)。
融合模块(Feature Fusion Module)受到标签在这里插入图片描述学生集合逻辑输出在这里插入图片描述的监督(以保证监督融合特征的质量)。

融合分类器的训练目标为:
在这里插入图片描述
领导学生输出特征映射的优化目标为:
在这里插入图片描述
在这里插入图片描述表示在这里插入图片描述范数,在这里插入图片描述在这里插入图片描述在这里插入图片描述的通道维数对齐。

增强策略(不理解)

一个直观的解决方案可以通过最小化中间输出上的负重构误差:
在这里插入图片描述
为了减少多样性计算,建议使用等式训练第一个学生在这里插入图片描述
在这里插入图片描述
其中学生在这里插入图片描述只对学生在这里插入图片描述进行多样性增强计算。因此多样性增强学习以单向链的方式将每个学生的知识转移给下一个同学。

将学生在这里插入图片描述的特征图表示为在这里插入图片描述。注意在这里插入图片描述。多样性本质上增强,使学生的注意力集中在不同的图像位置。首先提取每个特征映射 在这里插入图片描述的注意力为:
在这里插入图片描述
其中,在这里插入图片描述为第在这里插入图片描述层的通道数。然后,多样性增强注意力图在这里插入图片描述为:
在这里插入图片描述
其中在这里插入图片描述在这里插入图片描述被设置作为第在这里插入图片描述个最小的数字在在这里插入图片描述。等式的目标(8)是将注意力在这里插入图片描述转移到稍微较弱的区域,同时保持任务独立区域的注意价值。特别地,在这里插入图片描述被用来确定该区域是否依赖于任务。当区域独立于任务时在这里插入图片描述时,在这里插入图片描述的值等于在这里插入图片描述在这里插入图片描述,否则。通过将任务依赖区域的激活值改变为在这里插入图片描述,将注意力转移到稍微较弱的区域。增强了在这里插入图片描述来取代等式(6)是
在这里插入图片描述

自蒸馏

在这里插入图片描述
共同学生网络最后一层输出的特征映射在这里插入图片描述作为输入
学生网络在这里插入图片描述的输出特征图在这里插入图片描述作为自蒸馏在这里插入图片描述的训练输入/目标(网络在这里插入图片描述的输出作为自蒸馏模块在这里插入图片描述的输入,网络在这里插入图片描述的输出作为自蒸馏模块在这里插入图片描述的训练目标)。

每个块的特征图表示为在这里插入图片描述(它由在这里插入图片描述块组成),其注意图在这里插入图片描述计算方式为:
在这里插入图片描述
对于学生在这里插入图片描述,其自蒸馏模块的培训目标是:
在这里插入图片描述
α平衡了这两个损失项。
为了增强多样性,将多样性注意目标在这里插入图片描述转换为多样性特征目标在这里插入图片描述作为自蒸馏模块的输入,自蒸馏模块输出较浅层的目标为在这里插入图片描述。从而成为学生在这里插入图片描述的多样性增强目标:
在这里插入图片描述
领导学生的自蒸馏模块以融合特征图在这里插入图片描述作为输入,输出较浅层的目标特征图在这里插入图片描述。相应的自蒸馏损失为:
在这里插入图片描述

损失函数

共同学生的训练目标如下:
在这里插入图片描述

领导学生的训练目标如下:
在这里插入图片描述

神经网络中的知识进行提取,是一种将模型的信息转化为更为简洁和易于理解形式的过程。 神经网络是一种由许多神经元组成的复杂计算模型,它们通过学习和调整权重来解决各种问题。然而,神经网络通常具有大量的参数和复杂的结构,这使得它们难以解释和应用到其他领域。因此,我们需要一种方法来提取和总结神经网络中的知识,以便更好地理解和应用这些模型。 在进行神经网络知识提取时,有几种常见的方法。一种常见的方法是使用可视化技术,如热力图、激活图和网络结构图等,来可视化网络中不同层的活动模式。这些可视化技术能够帮助我们发现网络中的模式和特征,并从中推断出网络的知识。 另一种方法是使用特征提取技术,如卷积神经网络(CNN)的滤波器、自动编码器的隐藏层和循环神经网络(RNN)的隐状态等,来提取网络学习到的重要特征。这些重要特征可以帮助我们更好地理解网络学习到的信息,并将其应用到其他问题中。 此外,还有一种被称为知识蒸馏的技术,它通过训练一个较小的模型来提取大型模型中的知识。知识蒸馏通过引入目标函数和额外的训练策略,使小模型能够学习到大模型中的重要知识,并在不损失太多性能的情况下将其应用到实际问题中。 总而言之,提取神经网络中的知识是一项重要任务,它能够帮助我们更好地理解和应用这些复杂的模型。通过可视化、特征提取和知识蒸馏等方法,我们能够从神经网络中提取出有用的信息,并将其应用到其他领域或解决其他问题中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值