《Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution》论文笔记-CSDN博客

《无监督真实世界图像超分辨率的成对距离蒸馏》论文笔记

背景

标准的SISR(singal image super-resolution) 模型处理预定义的下采样核，例如双三次插值。但现实场景中的SISR——RWSR(real-world super resolution) 包含了LR图像中未知的退化，包括：模糊、噪声和JPEG压缩伪影以及不同的组合。

generalist通用模型

1.合成大量严重退化的成对训练数据；

2.复杂的退化管道使得模型能够泛化到各种未知条件。

specialist专家模型

1.用于训练的LR-SR数据对是通过使用固定核分解HR图像来创建的；

2.擅长特定输入退化。

本文贡献

1.无监督RWSR的蒸馏：将通用模型和专家模型进行结合；

2.提出了一个新的两两距离蒸馏框架，强调传递模型内和模型间的距离，以提高专家模型在显示场景中的表现；

3.与SOTA比，有所提升。

方法

定义

$D_{S}=\left \{ D_{i} \right \} _{i \in S}$ :较简单的退化集 $D_{S}=\left \{D_{i}\right \}_{i \in S}$ :较复杂的退化集 $G\gg S$

（最简单情况下， $D_{S}=\left \{ D_{_{Downsampling}} \right \}$ ）

$M_{S}$ :专家模型 $M_{G}$ :通用模型

$\left \{ X^{U} \right \}$ 是LR图像集，具有相同的未知退化 $\left \{ D_{i} \right \} _{i \in U}$ 。

$\left \{ X^{L} \right \}$ 是另一组LR图像集，使用 $D_{S}$ 特定退化生成。

其中， $M_{S}$ 擅长 $\left \{ X^{L} \right \}$ ，而 $M_{G}$ 在 $\left \{ X^{U} \right \}$ 和 $\left \{ X^{L} \right \}$ 上表现都一般。

目标

借助 $M_{G}$ 使 $M_{S}$ 适应 $\left \{ X^{U} \right \}$ ，也就是说，使用通用模型来让专家模型能够适应具有未知退化的数据，是的专家模型在真实世界数据集上也能有较好的表现。

一种朴素的蒸馏方法

让 $M_{S}$ 模仿 $M_{G}$ 对未标记输入进行预测

$\widehat{Y}^{L}_{S} = M_{S}(X^{L})$ , $\widehat{Y}^{U}_{S} = M_{S}(X^{U})$ , $\widehat{Y}^{U}_{G} = M_{G}(X^{U})$

$\pounds_{ND}=\pounds_{L}(\widehat{Y^{U}_{S}},\widehat{Y^{U}_{G}})+\lambda \pounds_{L}(\widehat{Y^{L}_{S}},Y^{L})$

其中， $Y^{L}$ 是ground-truth， $\pounds_{L}$ 是监督损失。

$\lambda$ 是 $M_{S}$ 的蒸馏和主要目标间平衡的比例因子。

缺点

完全依赖于通用模型 $M_{G}$ 的信息，无法同时利用两种模型的优势。

成对距离蒸馏（Pairwise Distance Distillation， PDD）

使用 $M_{S}$ 和 $M_{G}$ 对 $X^{U}$ 和 $X^{L}$ 进行预测，得到：

$\widehat{Y}^{U}_{S} = M_{S}(X^{U})$ $\widehat{Y}^{U}_{G} = M_{G}(X^{U})$

$\widehat{Y}^{L}_{S} = M_{S}(X^{L})$ $\widehat{Y}^{G}_{L} = M_{G}(X^{L})$

让专家模型模仿通用模型的模型内关系，也就是说，将 $M_{S}$ 的现实世界预测的低级特征 $\widehat{Y}^{U}_{S}$ 推广到与其综合预测 $\widehat{Y}^{L}_{S}$ 相似。

假设 $M_{S}$ 满足这种相似性，并得出以下关于预测之间VGG特征距离的用izhixing：

1.同一输入对预测的模型内距离在 $M_{S}$ 和 $M_{G}$ 之间应该是一致的；

2.单一输入预测的模型间距离应该在合成域和实际域之间保持一致。

理由如下：1、首先，同一模型预测的低层特征是一致的。因此，同一模型预测 $\left \{ \widehat{Y}^{L}_{G} , \widehat{Y}^{U}_{G} \right \}$ 或 $\left \{ \widehat{Y}^{L}_{S} , \widehat{Y}^{U}_{S} \right \}$ 之间的距离，即模型间距离，主要反映由于它们接近的低层特征而导致的语义差异。由于应用的SR模型不应该改变语义，因此 $M_{S}$ 和 $M_{G}$ 的模型内距离应该是一致的；2、其次，注意到2种模型预测的低层特征不同，如： $\widehat{Y}^{L}_{S} > \widehat{Y}^{L}_{G}$ 。给定样本的2个预测 $\left \{ \widehat{Y}^{L}_{G} , \widehat{Y}^{L}_{S} \right \}$ 或 $\left \{ \widehat{Y}^{U}_{G} , \widehat{Y}^{U}_{S} \right \}$ 之间的距离，即模型间距离捕获了低级特征差异，因为对于相同的输入，语义信息保持不变。又由于单个模型中低级特征应该是相似的，因此合成样本和真实样本的模型间距离也应是一致的。

★★★本研究中，将上述的2种一致性构建为模型内和模型间距离的蒸馏。

研究的方法鼓励 $M_{S}$ 的真实世界预测 $\widehat{Y}^{U}_{S}$ 具有与其合成预测 $\widehat{Y}^{L}_{S}$ 相似的低级特征，并将其作为高质量图像的参考（这里的高质量图像是HR生成的LR?还是生成的HR？没有弄明白）。

模型内距离蒸馏

模型内蒸馏距离加强了同一模型的预测之间的一致性。

$d^{ij}_{G}=\left \| \Phi (\widehat{Y^{L}_{G}})-\Phi (\widehat{Y^{U}_{G}}) \right \|$ $d^{ij}_{S}=\left \| \Phi (\widehat{Y^{L}_{S}})-\Phi (\widehat{Y^{U}_{S}}) \right \|$

( $M_{G}$ 模型内距离） ( $M_{S}$ 模型内距离）

( $\Phi ^{ij}$ 为VGG19的第i残差块的第j层。)

通过最小化交叉熵(Cross-Entropy, CE) $Rintra$ 测量的 $d^{ij}_{G}$ 和 $d^{ij}_{S}$ 之间的差异来强制两者之间的一致性：

$Rintra=-\frac{1}{hw}\sum_{i,j}^{}\sum_{m,n}^{}S\left ( d^{ij}_{G}\left [ m,n \right ] \right )logS\left ( d^{ij}_{S}\left [ m,n \right ] \right )$

$\left [ m,n \right ]$ 为特征映射空间索引。 $S\left ( \cdot \right )$ 为Softmax激活函数。

模型间距离蒸馏

模型间距离蒸馏加强了不同模型预测之间低层特征变化的一致性。

$\bigtriangleup ^{ij}_{L}=Gram\left ( \Phi _{ij}\left(\widehat{Y}^{L}_{S}\right)- \Phi _{ij}\left(\widehat{Y}^{L}_{G}\right ) \right )$ $\bigtriangleup ^{ij}_{U}=Gram\left ( \Phi _{ij}\left(\widehat{Y}^{U}_{S}\right)- \Phi _{ij}\left(\widehat{Y}^{U}_{G}\right ) \right )$

( $X^{L}$ 的特征距离) ( $X^{U}$ 的特征距离)

( $\bigtriangleup ^{ij}$ 表示低级特征的差异)

$Gram\left ( \cdot \right )$ 为Gram矩阵，计算矢量化特征映射沿通道维数的相关性。

通过最小化 $Rinter$ ( $\bigtriangleup$ 之间的 $Forbenius$ 范数)来确保模型间距离的一致性。

$\ast Riner= \underset{i,j}\sum{\left \| \bigtriangleup ^{ij}_{U}-\bigtriangleup ^{ij}_{L} \right \|}_{F}$

$\left \| X \right \|_{F}\overset{def}{= }\sqrt{\sum _{i}\sum_{j}X^{2}_{i,j}}$ ( $F$ 范数定义为矩阵A各项元素的绝对值平方的总和开根）

完整方法

$M^{S}$ 完全优化了 $X^{L}$ 的监督损失和 $X^{U}$ 的无监督损失

★监督损失

监督损失保持了合成的退化的专业化，减少了对蒸馏的过拟合。

$\pounds _{L}\left ( \widehat{Y}^{L}_{S},Y^{L} \right )=\alpha _{1}\pounds_{wv}\left( \widehat{Y}^{L}_{S},Y^{L} \right )+\alpha_{2}\pounds_{vgg}\left(\widehat{Y}^{L}_{S},Y^{L} \right )+\alpha_{3}\pounds_{gan}\left(\widehat{Y}^{L}_{S}\right)$