文章目录
- FAKD系列论文
-
- paper1: FAKD:用于高效图像超分辨率的特征亲和知识蒸馏(2020)
- ABSTRACT
- 1. INTRODUCTION
- 2. PROPOSED METHOD
- 2.2. Overall Loss Function
- 3. EXPERIMENTAL RESULTS
- 4. CONCLUSION
- paper2: 具有 Knowledge distilation 的生成式对抗性超分辨率(2023 May 9)
- ABSTRACT
- 1 Introduction
- 2 Related Works
- 3 Methodology
- 4 Experiments
- 5 Conclusions and Future Works
FAKD系列论文
paper1: FAKD:用于高效图像超分辨率的特征亲和知识蒸馏(2020)
ABSTRACT
卷积神经网络(CNNs)已广泛应用于图像超分辨率(SR)。大多数现有的基于 CNN 的方法都专注于通过设计更深/更宽的网络来实现更好的性能,同时存在沉重的计算成本问题,从而阻碍了此类模型在资源有限的移动设备上部署。为了缓解这个问题,我们提出了一种新颖高效的 SR 模型,称为基于特征亲和力的知识蒸馏 (FAKD),通过将繁重的教师模型的结构知识转移到轻量级学生模型中。为了有效传递结构知识,FAKD旨在从特征图中提取二阶统计信息,并以低计算和内存成本训练一个轻量级的学生网络。实验结果表明,该方法在定量指标和视觉指标方面都优于其他基于知识蒸馏的方法。
1. INTRODUCTION
单图像超分辨率 (SISR) [1] 旨在从其退化的低分辨率 (LR) 对应物生成高分辨率 (HR) 图像。它可用于各种计算机视觉应用,如物体识别[2]、医学成像[3]和图像生成[4]。迄今为止,已经开发了大量的SISR方法,包括基于插值的[5]、基于稀疏表示的[6]和基于深度学习的方法[7,8]。
如今,卷积神经网络 (CNN) 在图像超分辨率任务中盛行,并且由于特征表示表达的强大能力,取得了令人印象深刻的性能。在[9]的开创性工作中,Dong等人首先提出了一种端到端卷积神经网络(SRCNN)来学习LR图像与其对应的HR图像之间的映射函数。后来的作品,如EDSR[10]、RDN[11]和RCAN[12],通过将剩余块堆叠到数百层来构建非常深的网络,以达到最先进的结果。然而,大多数现有的基于 CNN 的 SR 方法都存在严重的计算成本问题,因为它们包含大量参数。在实践中,由于手机和机器人等资源有限的设备部署困难,这种繁重的模型在实际应用中受到限制。因此,设计轻量级 SR 模型至关重要。
为了获得轻量级模型,最近有人尝试压缩网络模型,包括模型修剪[13,14,15]、轻量级网络设计[16,17]和知识蒸馏(KD)方法[18,19,20,21]。模型剪枝和轻量级网络设计方法需要精心设计,可能会导致性能下降。相比之下,知识蒸馏方法在不改变网络结构的情况下比其他模型压缩方法具有优势。
传统的知识蒸馏(KD)[18]首先被提出用于图像识别任务,并通过使用强教师网络的软标签来监督微小学生网络的训练,遵循师生范式。到目前为止,已经提出了几种 KD 方法。例如,Romero 等人。提出了 FitNet [19] 来提取隐藏在中间层特征图的知识。Sergey等人[22]通过计算中级特征的注意图提出了注意转移。鼓励学生网络生成与教师相似的注意力图。考虑到层之间的相关性的重要性,Yim等人[20]提出了求解过程流(FSP)来提取解决问题的信息,并将其作为训练学生的监督信号。然而,大多数现有的KD方法都专注于高级任务,如图像分类[19,22,20],而很少有人关注图像回归任务,如图像SR。当面对图像 SR 时,如何压缩模型仍然是一个悬而未决的问题,因为表示空间是无限的 [23, 24]。在这里,我们尝试设计一个基于 KD 的高效 SR 框架。
为了有效地 SR,我们提出了一种新颖的基于特征的知识蒸馏 (FAKD) 框架,通过从教师模型中提取结构知识。最相关的工作[21]试图从教师模型中传播简单的一阶统计信息(例如,通道上的平均池化),而忽略了丰富的高阶统计信息。出于这个原因,我们专注于从特征图中提取二阶信息(例如特征内相关性),这被证明有助于更准确的重建 [7]。具体来说,FAKD将知识从教师模型的特征图转移到轻量级学生模型中,这迫使轻量级学生模型模仿特征相关性。实验表明,我们提出的框架有效地压缩了基于 CNN 的 SR 模型,同时通过从强大的教师模型转移结构知识来提高学生网络的性能。
总之,主要贡献总结如下:
•我们提出了一个基于特征亲和力的知识蒸馏(FAKD)框架,该框架利用特征图中的相关性来监督学生网络的训练。探索了空间维度上的亲和信息,以提高蒸馏性能。
•实验表明,我们提出的框架在定量和视觉结果方面的优越性。
2. PROPOSED METHOD
我们提出的基于特征的知识蒸馏框架的管道如图1所示。退化的LR图像通过教师T和学生S网络传播。教师模型是一个强大的繁琐网络,而学生模型是一个轻量级网络。在我们的框架中,它们都共享相同的架构,具有不同的超参数(例如网络深度)。如图 1 所示,它们分别由 m 和 n 个残差块 (m > n) 组成。为了有效地将知识从教师模型转移到学生模型,学生网络的中间特征图被迫模仿教师模型的特征亲和矩阵。此外,教师输出图像和地面真实图像也被用来分别通过教师监督(TS)和数据监督(DS)来监督学生网络。
图1所示。基于特征亲和力的知识蒸馏(FAKD)框架的体系结构,以实现高效的图像超分辨率。给定一个沉重的老师及其对应的轻量级学生网络,FAKD通过强制教师和学生模型之间的相似特征相关映射,将知识从强教师模型转移到轻量级学生模型。
2.1. Feature Affinity-based Distillation (FAKD)
知识蒸馏的关键是设计一个合适的模仿损失函数,该函数可以成功地传播有价值的信息来指导学生模型的训练过程。先前的研究 [23, 24] 表明回归问题的特征表示空间是无限的。出于这个原因,由于解空间巨大,为分类任务设计的现有蒸馏方法 [19, 22, 20] 可能不适合图像 SR。为了有效渲染图像 SR 的知识蒸馏,有必要限制解空间。为此,我们设计了一个通用的基于特征的知识蒸馏框架,用于高效的 SR。
给定一批特征图 F ∈ R b × C × W × H R^{b×C×W ×H} Rb×C×W×H ,我们首先将它们重塑为一个三维张量 F ∈ R b × C × W H R^{b×C×W H} Rb×C×WH ,分别是通道和空间维度。为了利用特征图中的一致性,我们建议计算亲和矩阵 A。它们是使用来自低级、中级和高级层的特征图生成的,以表示不同级别的相关性。鼓励学生网络与教师网络产生相似的亲和矩阵,基于特征亲和力的蒸馏损失可以表示为:
其中 A l T A^{T}_l AlT 和 A l S A^{S}_l AlS 是从第 l 层的特征图中提取的教师和学生网络的亲和矩阵; l′ 是我们选择提取的层数。|A|表示亲和矩阵中的元素数量。
为了保留像素之间的空间连续性,我们从空间的角度考虑亲和矩阵,旨在探索像素之间的关系。该管道如图 2 所示,其中每个像素都被视为 C 维向量、蓝色列和归一化,在每一列中进行,如公式 2 所示。归一化后,每一列都是单位长度的,因此两个像素之间的余弦相似度简单地由内积获得,这在经验上效果很好。空间亲和矩阵表示为:
其中 F ~ \tilde{F} F~ 是归一化特征图。生成的空间亲和矩阵的大小为b × HW × HW。空间亲和矩阵中的每个元素表示两个像素之间的空间相关性。
图 2. 空间亲和力计算管道,C 是通道数,H,W 是空间大小,b 是批量大小。蓝色像素是亲和力的维度,将被归一化。
2.2. Overall Loss Function
除了基于特征的蒸馏,我们凭经验发现教师监督 (TS) 和数据监督 (DS) 也有助于提高蒸馏性能,如图 1 所示。 TS 和 DS 应该分别将学生的输出与教师和地面真实图像进行比较,如公式 4 和 5 所示。因此,学生网络可以从教师分布和真实数据分布中接收监督信号。整体损失函数表示为等式 6。
其中 I S R S I^{S}_{SR} ISRS、 I S R T I^{T}_{SR} ISRT 和 I H R I_{HR} I