《Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution》 论文笔记

《无监督真实世界图像超分辨率的成对距离蒸馏》论文笔记

背景

        标准的SISR(singal image super-resolution) 模型处理预定义的下采样核,例如双三次插值。但现实场景中的SISR——RWSR(real-world super resolution) 包含了LR图像中未知的退化,包括:模糊噪声JPEG压缩伪影以及不同的组合

generalist通用模型

        1.合成大量严重退化的成对训练数据;

        2.复杂的退化管道使得模型能够泛化到各种未知条件。

specialist专家模型

        1.用于训练的LR-SR数据对是通过使用固定核分解HR图像来创建的;

        2.擅长特定输入退化。

本文贡献

        1.无监督RWSR的蒸馏:将通用模型和专家模型进行结合;

        2.提出了一个新的两两距离蒸馏框架,强调传递模型内和模型间的距离,以提高专家模型在显示场景中的表现;

        3.与SOTA比,有所提升。

方法

定义

D_{S}=\left \{ D_{i} \right \} _{i \in S} :较简单的退化集                    D_{S}=\left \{D_{i}\right \}_{i \in S}:较复杂的退化集          G\gg S

(最简单情况下,D_{S}=\left \{ D_{_{Downsampling}} \right \})                   

M_{S} :专家模型                                                 M_{G} :通用模型

\left \{ X^{U} \right \}是LR图像集,具有相同的未知退化\left \{ D_{i} \right \} _{i \in U}

\left \{ X^{L} \right \}是另一组LR图像集,使用D_{S}特定退化生成。

其中,M_{S}擅长\left \{ X^{L} \right \},而M_{G}\left \{ X^{U} \right \}\left \{ X^{L} \right \}上表现都一般。

目标

        借助M_{G}使M_{S}适应\left \{ X^{U} \right \},也就是说,使用通用模型来让专家模型能够适应具有未知退化的数据,是的专家模型在真实世界数据集上也能有较好的表现。

一种朴素的蒸馏方法

M_{S}模仿M_{G}对未标记输入进行预测

\widehat{Y}^{L}_{S} = M_{S}(X^{L}),              \widehat{Y}^{U}_{S} = M_{S}(X^{U}),                     \widehat{Y}^{U}_{G} = M_{G}(X^{U})

\pounds_{ND}=\pounds_{L}(\widehat{Y^{U}_{S}},\widehat{Y^{U}_{G}})+\lambda \pounds_{L}(\widehat{Y^{L}_{S}},Y^{L})

其中,Y^{L}是ground-truth,\pounds_{L}是监督损失。

\lambdaM_{S}的蒸馏和主要目标间平衡的比例因子。

缺点

        完全依赖于通用模型M_{G}的信息,无法同时利用两种模型的优势。

成对距离蒸馏(Pairwise Distance Distillation, PDD)

        使用M_{S}M_{G}X^{U}X^{L}进行预测,得到:

\widehat{Y}^{U}_{S} = M_{S}(X^{U})                              \widehat{Y}^{U}_{G} = M_{G}(X^{U})

\widehat{Y}^{L}_{S} = M_{S}(X^{L})                              \widehat{Y}^{G}_{L} = M_{G}(X^{L})

        让专家模型模仿通用模型的模型内关系,也就是说,将M_{S}的现实世界预测的低级特征\widehat{Y}^{U}_{S}推广到与其综合预测\widehat{Y}^{L}_{S}相似。

        假设M_{S}满足这种相似性,并得出以下关于预测之间VGG特征距离的用izhixing:

                1.同一输入对预测的模型内距离在M_{S}M_{G}之间应该是一致的;

                2.单一输入预测的模型间距离应该在合成域和实际域之间保持一致。

                理由如下:1、首先,同一模型预测的低层特征是一致的。因此,同一模型预测\left \{ \widehat{Y}^{L}_{G} , \widehat{Y}^{U}_{G} \right \}\left \{ \widehat{Y}^{L}_{S} , \widehat{Y}^{U}_{S} \right \}之间的距离,即模型间距离,主要反映由于它们接近的低层特征而导致的语义差异。由于应用的SR模型不应该改变语义,因此M_{S}M_{G}的模型内距离应该是一致的;2、其次,注意到2种模型预测的低层特征不同,如:\widehat{Y}^{L}_{S} > \widehat{Y}^{L}_{G}。给定样本的2个预测\left \{ \widehat{Y}^{L}_{G} , \widehat{Y}^{L}_{S} \right \}\left \{ \widehat{Y}^{U}_{G} , \widehat{Y}^{U}_{S} \right \}之间的距离,即模型间距离捕获了低级特征差异,因为对于相同的输入,语义信息保持不变。又由于单个模型中低级特征应该是相似的,因此合成样本和真实样本的模型间距离也应是一致的。

        ★★★本研究中,将上述的2种一致性构建为模型内和模型间距离的蒸馏。

研究的方法鼓励M_{S}的真实世界预测\widehat{Y}^{U}_{S}具有与其合成预测\widehat{Y}^{L}_{S}相似的低级特征,并将其作为高质量图像的参考(这里的高质量图像是HR生成的LR?还是生成的HR? 没有弄明白)。

模型内距离蒸馏

        模型内蒸馏距离加强了同一模型的预测之间的一致性。

d^{ij}_{G}=\left \| \Phi (\widehat{Y^{L}_{G}})-\Phi (\widehat{Y^{U}_{G}}) \right \|                       d^{ij}_{S}=\left \| \Phi (\widehat{Y^{L}_{S}})-\Phi (\widehat{Y^{U}_{S}}) \right \|     

(M_{G}模型内距离)                                        (M_{S}模型内距离)

(\Phi ^{ij}为VGG19的第i残差块的第j层。)

        通过最小化交叉熵(Cross-Entropy, CE) Rintra测量的d^{ij}_{G}d^{ij}_{S}之间的差异来强制两者之间的一致性:

Rintra=-\frac{1}{hw}\sum_{i,j}^{}\sum_{m,n}^{}S\left ( d^{ij}_{G}\left [ m,n \right ] \right )logS\left ( d^{ij}_{S}\left [ m,n \right ] \right )

\left [ m,n \right ]为特征映射空间索引。 S\left ( \cdot \right )为Softmax激活函数。

模型间距离蒸馏

        模型间距离蒸馏加强了不同模型预测之间低层特征变化的一致性。

\bigtriangleup ^{ij}_{L}=Gram\left ( \Phi _{ij}\left(\widehat{Y}^{L}_{S}\right)- \Phi _{ij}\left(\widehat{Y}^{L}_{G}\right ) \right )       \bigtriangleup ^{ij}_{U}=Gram\left ( \Phi _{ij}\left(\widehat{Y}^{U}_{S}\right)- \Phi _{ij}\left(\widehat{Y}^{U}_{G}\right ) \right )

(X^{L}的特征距离)                                                        (X^{U}的特征距离)

(\bigtriangleup ^{ij}表示低级特征的差异)

Gram\left ( \cdot \right )为Gram矩阵,计算矢量化特征映射沿通道维数的相关性。

        通过最小化Rinter(\bigtriangleup之间的Forbenius范数)来确保模型间距离的一致性。

 \ast Riner= \underset{i,j}\sum{\left \| \bigtriangleup ^{ij}_{U}-\bigtriangleup ^{ij}_{L} \right \|}_{F}        

\left \| X \right \|_{F}\overset{def}{= }\sqrt{\sum _{i}\sum_{j}X^{2}_{i,j}} (F范数定义为矩阵A各项元素的绝对值平方的总和开根)

完整方法

        M^{S}完全优化了X^{L}的监督损失和X^{U}的无监督损失

监督损失

        监督损失保持了合成的退化的专业化,减少了对蒸馏的过拟合。

\pounds _{L}\left ( \widehat{Y}^{L}_{S},Y^{L} \right )=\alpha _{1}\pounds_{wv}\left( \widehat{Y}^{L}_{S},Y^{L} \right )+\alpha_{2}\pounds_{vgg}\left(\widehat{Y}^{L}_{S},Y^{L} \right )+\alpha_{3}\pounds_{gan}\left(\widehat{Y}^{L}_{S}\right)

\pounds_{wv}为wavelet-based loss, \pounds_{vgg}为感知损失,\pounds_{gan}为对抗训练的生成损失。

无监督损失

        无监督损失在没有ground-truth的情况下,选择优化一致性作为正则化器。

        为了充分利用鉴别器的真实感知识,在\pounds_{L}中加入了生成损失\pounds_{v}

\pounds_{u}= \lambda_{1}rintra+\lambda_{2}Rinter+\lambda_{3}\pounds_{gan}\left(\widehat{Y}^{v}_{S} \right )

因此,无监督损失为\pounds= \pounds_{L}+\pounds_{u}

色彩校正

        由于特征空间内距离的正则化,会经常导致颜色的偏移。

        解决:将每个颜色通道的均值和方差与相应输入通道的均值和方差归一化。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值