【论文阅读】《Noise-Free Optimization in Early Training Steps for Image Super-resolution》

学习资料


0. Abstract

0.1. 研究背景

原文大意

最近基于深度学习的单图像超分辨率(SISR)方法表现出令人印象深刻的性能,而典型的方法是通过最小化与给定高分辨率(HR)图像的像素距离来训练其网络。然而,尽管基本的训练方案是主流选择,但将其应用于不适定逆问题(ill-posed inverse problems)的背景下尚未得到彻底研究。

笔记

“最小化与给定高分辨率(HR)图像的像素距离”:

假设我们有一张非常清晰的高分辨率(HR)图片,就像是一个很完美的模板(这就是给定的高分辨率图像 HR)。

我们先把原有的高分辨率(HR)图片变模糊,再通过某种方法(比如深度学习的网络)去生成或者预测另一张图片。我们把预测出来的这张图片和那个完美的模板图片一个像素一个像素地去比较它们的差异。

这个差异怎么算呢?就是看对应的每个像素的颜色值或者亮度值等特征相差多少。然后我们训练这个网络的目标就是让这些像素之间的差异加起来尽可能地小。比如说,如果模板图片上某个像素的颜色值是 100(只是简单举例一个数值哦),而我们预测的图片上对应位置像素的颜色值是 90,那这个像素的差异就是 10。我们要对所有像素都这样计算差异,然后想办法让这些差异的总和变得越来越小。通过不断调整网络的参数,让网络慢慢学习到怎么生成一张和给定高分辨率图像在像素层面上非常相似的图片,这就是 “最小化与给定高分辨率(HR)图像的像素距离” 的意思啦。简单说,就是让我们生成的图片和原本的高分辨率图片在每个像素上都尽量接近。

图像超分辨率不适定逆问题:

好比你有一张有点模糊的小照片(低分辨率图像),然后你想把它变得特别清晰,就像变成一张很大很清楚的大照片(高分辨率图像)。但是呢,这个过程中有个麻烦的问题,就是有好多好多不同的清晰大照片都有可能是从这张小照片变过来的,我们不太确定到底哪个才是真正对的或者最好的。这就是图像超分辨率不适定问题啦。简单说,就是从低分辨率到高分辨率的过程不是那么明确、唯一的,有很多种可能性,我们很难准确地找到那个最合适的高分辨率结果,这就给图像超分辨率的工作带来了困难,就像解谜一样,但是这个谜没有一个特别确定的答案,有好多可能的答案都有点像对的,但又不完全对。


0.2. 发现问题

原文大意

在这项工作中,我们旨在通过将目标HR图像分解为两个子组件来更好地理解其内在构成:(1)最优质心,即多个潜在HR图像的期望值;(2)固有噪声,即HR图像与中心点之间的残差。我们的研究结果表明,当前的训练方案无法捕捉SISR的不适定特性,并且容易受到内在噪声项的影响,尤其是在早期的训练步骤中。

笔记

将目标HR图像分解为两个子组件:

为什么要这么干呢?就是为了能更清楚地搞明白平常我们用的那种普通训练方法(香草训练)到底是怎么回事,它里面都有啥潜在的东西。通过搞清楚这些,我们就能有办法把现在的训练过程变得更好,更系统。

最优质心:

想象有很多张不同的高分辨率图片,我们把它们都变成低分辨率图片(就像拍照时把清晰的大照片缩小了),然后再试着把这些低分辨率图片还原回高分辨率图片。这时候会得到很多不一样的高分辨率结果,“最优质心” 就是这些还原出来的高分辨率图片的一个平均样子或者说最有可能的样子,是一种理想的期望状态。它是从多个可能的高分辨率图像经过下采样再上采样后综合得出的一个概念,代表了在这种情况下最 “典型” 的高分辨率特征。

固有噪声:

固有噪声就是真实的高分辨率图像和这个 “最优质心” 的差别。比如我们有一张实际的高分辨率照片,但是按照刚才说的过程得到的 “最优质心” 和这张照片不完全一样,那这个不一样的部分就是固有噪声啦。它反映了这张真实图片的特殊性或者说是偏离 “最优质心” 的那些额外的、不规则的信息,就好像照片上一些随机出现的小瑕疵或者独特的细节,这些细节使得这张照片和我们期望的平均状态有所不同。

下采样(Downsampling)

定义:也叫降采样,是对信号的抽取或压缩的过程,在图像处理中,下采样就是减少图像的尺寸

目的与应用场景:

  • 减少数据量与计算量:例如在处理大规模图像数据集时,原始高分辨率图像数据量非常大,对计算机的存储和计算能力要求很高。通过下采样可以将图像尺寸变小,从而减少后续处理过程中需要处理的数据量和计算量,提高处理效率。比如在一些图像识别的初步阶段,可能会先对高分辨率图像进行下采样,快速筛选出可能感兴趣的区域,再对这些区域进行更精细的处理。
  • 多尺度分析:在分析图像的不同尺度特征时,下采样可以生成一系列不同分辨率的图像,用于构建图像金字塔等结构。这样可以在不同尺度上对图像进行分析和处理,例如在目标检测中,可能会在不同尺度的图像上检测不同大小的目标,大目标在较低分辨率下可能更容易被检测到整体特征,小目标则在较高分辨率下更清晰可辨。

实现方法:

上采样(Upsampling)

定义:与下采样相反,上采样是增加图像尺寸的过程,也就是让图像变得更大、更清晰(在一定程度上)。

目的与应用场景

  • 图像放大显示:当我们需要将一张小图像放大显示时,就需要上采样操作。比如在图片查看软件中,当我们将一张缩略图放大查看细节时,就会用到上采样算法来填充放大后的图像像素。
  • 超分辨率重建:这是图像超分辨率中的关键步骤。从低分辨率图像恢复出高分辨率图像时,首先可能会对低分辨率图像进行上采样,使其尺寸接近目标高分辨率图像的尺寸,然后再通过一些算法(如基于深度学习的方法)来进一步恢复图像的细节,使得放大后的图像更加清晰,尽可能接近真实的高分辨率图像。例如在一些监控视频处理中,可能需要将低分辨率的监控画面上采样并进行超分辨率重建,以便更清楚地识别画面中的人物或物体。

实现方法


0.3. 解决问题

原文大意

为了解决这个问题,我们提出了一种新颖的优化方法,通过确定最佳中心点并直接进行估计优化,可以在香草训练的早期阶段有效去除固有噪声项。 实验结果表明,所提出的方法能有效增强香草训练(vanilla training)的稳定性,从而提高整体性能。

笔记

香草训练(vanilla training):

在超分辨率方向中,“香草训练” 通常是一种比较基础、常规的训练方式,没有经过特殊改进或添加复杂模块的训练方法。

就像香草冰淇淋是一种比较基础、经典口味的冰淇淋一样,“香草训练” 在超分辨率领域代表着相对传统、常见的训练流程和设置,一般是通过最小化与给定高分辨率图像的逐像素距离等常规方式来训练网络。


1. 介绍

1.1. 研究背景与现状

1.1.1. 深度学习推动 SISR 发展

近年来,基于深度学习的单图像超分辨率(SISR)方法取得了显著的成绩,相比以前的方法有了很大的提升。这表明深度学习技术在图像超分辨率领域带来了重大突破,使得图像重建效果更好。

1.1.2. SISR 的主要目标

像素级精确重建(保真度导向)

旨在实现图像在像素层面的精准重建。例如在医疗图像领域,医生需要清晰准确的图像细节来进行疾病诊断,这就要求 SISR 方法能够尽可能精确地恢复图像的每一个像素值,以确保图像的真实性和可靠性。

生成视觉吸引人的图像(感知质量导向)

侧重于让图像在视觉上更具吸引力。比如在图像处理软件中,为了给用户更好的视觉体验,会采用这种方法使处理后的图像看起来更美观、自然。

1.1.3. 保真度导向方法的主流地位

尽管近年来感知质量导向的方法逐渐受到关注,但由于在很多实际应用中,如科学研究、工业检测等领域,对图像可靠重建的需求非常高,所以保真度导向的方法仍然是研究的主流。这是因为这些领域需要准确的图像信息来进行分析和决策,哪怕是微小的像素偏差都可能影响结果的准确性。

1.2. 研究动机与目标

1.2.1. 现有训练方法的局限性

现代保真度导向的 SISR 网络通常采用简单的训练策略,一般仅基于高分辨率(HR)图像和相应下采样的低分辨率(LR)图像对来优化预测图像的似然性,大多采用像素级L_{1}损失作为目标函数

然而,这种基本的训练方案虽然被广泛使用,但它在图像超分辨率不适定逆问题背景下的使用和局限性尚未得到充分研究。这意味着我们对这种常见训练方法在复杂的图像超分辨率问题中的表现和潜在问题还了解不够深入。

1.2.2. 本文研究目标

在本文中,作者旨在对 SISR 任务中香草训练(即常规的基础训练方式)的潜在成分进行分析,深入理解其内在机制,并系统地改进当前的训练过程。

具体来说,作者通过将原始的 HR 图像分解为两个关键成分:最优质心和固有噪声。其中,最优质心被定义为下采样到相同 LR 图像实例的多个潜在 HR 图像的期望,而固有噪声则被定义为 HR 图像样本与最优质心之间的残差。

通过这种分解和分析,作者发现香草训练忽略了逆问题的不适定性,将给定的 HR 样本视为唯一且明确的解决方案。但实际上,由于从 LR 到 HR 的映射是非确定性的,这种假设并不合理,导致每个 HR 图像都存在固有噪声,这使得整个训练过程高度依赖于每个小批次中的 HR 图像样本,从而在训练早期尤其容易出现噪声和不稳定的情况。

为了解决这个问题,作者提出了一系列的方法和改进措施,包括提出新的无噪声目标函数、估计经验质心、解决经验质心的估计误差以及构建经验质心导向优化(ECO)框架等,以提高训练的稳定性和性能,为 SISR 训练方法的改进提供新的思路和解决方案。

2. 概率建模

2.1. 传统目标函数

原文大意

笔记

就好比我们要完成一个拼图游戏(图像超分辨率任务),传统方法就是找到一种规则(目标函数)来拼好每一块小图(像素)。这里最常用的就是看拼好后的图和原本正确的图有多像(像素级L_{1}损失),像的程度就是我们判断拼图好不好的标准。


2.2. 最优质心和内在噪声

原文大意

最优质心:定义为所有可能高分辨率图像的期望值。在SISR任务中,最优质心可以通过积分高分辨率图像的概率密度函数得到。

内在噪声:定义为单个数据点与最优质心的残差。由于SISR任务的不适定性,内在噪声项具有高度随机性和不确定性。

笔记

想象我们有很多张差不多但又不完全一样的高清图片(多个潜在 HR 图像),它们都能变成同一张模糊一点的图(LR 图像)。那这些高清图片的 “平均样子” 就是最优中心,每张高清图和这个 “平均样子” 的差别就是固有噪声。比如一群人拍照,大家的姿势表情都有点不同(多张 HR 图像),但拍出来的整体场景是一样的(LR 图像),每个人和整体平均状态的差异就是固有噪声。


2.3. 修改目标函数

原文大意

无噪声目标函数:为了克服传统方法的缺陷,本文提出了一个新的无噪声目标函数,通过简化原始目标函数来去除内在噪声项的影响。

经验质心估计:使用预训练的超分辨率网络来估算最优质心,从而构建一个可处理的目标函数。

笔记

我们知道一张模糊的图可以对应很多张不同的高清图,所以在拼图的时候(训练),不能只看那一张给定的高清图(当前训练方法的问题),而应该考虑所有可能的高清图情况,这样才能更好地拼出准确的图(改进方向)。


3. 无噪声目标函数

原文大意

去除噪声项:通过 Jensen 不等式获得原始目标函数的无噪声下界,消除了每个样本的固有噪声项,只保留质心项。

笔记

我们想要让拼图过程更顺利,就先把那些干扰我们的 “小杂音”(固有噪声项)去掉,只留下关键的部分(质心项)。就像在一个嘈杂的房间里听音乐,我们想办法过滤掉杂音,只听清楚音乐的旋律(目标函数的主要部分)。

原文大意

经验质心估计:由于真实质心难以处理,利用预训练网络作为质心估计器,将预训练网络的估计称为经验质心,并进行了定义。

笔记

但是我们不知道那个 “完美的平均样子”(真质心)到底是什么,这时候我们就找一个已经拼过很多次图的高手(预训练网络),他拼出来的样子就可以当作一个参考(经验质心),我们就按照这个参考来继续我们的拼图。

4. 经验质心的估计误差

分析估计误差:虽然高手拼的图可以参考,但他也不是每次都能拼得完全正确(预训练网络有估计误差),我们要看看他哪里拼得不太对,比如有些细节没处理好(低频和高频组件的误差分析)。就像高手画画,可能有些颜色过渡不自然或者某些小细节没画好,我们要知道这些问题。

回顾知识蒸馏:知识蒸馏就像是让一个学生(新的网络)跟着老师(预训练网络)学画画,但是老师教的时候可能有些地方没教对(目标图像中的估计误差被忽略),比如颜色搭配不对,导致学生学的时候也会有问题,画面看起来不协调(空间不一致性)。

5. 经验质心导向优化(ECO)

构建空间一致的无噪声目标:我们要改进之前的方法,让学生在学画画的时候(训练网络),既能参考老师画的好的部分(经验质心),又不会受到老师错误的影响,所以我们重新设计一个更好的学习方法(可处理的无噪声目标函数),让学生能更准确地画出和老师画的 “平均样子” 接近的画,而且不会出现画面不协调的问题(空间一致)。

考虑估计误差:但是老师画的也不是完全准确(经验质心有误差),所以我们不能一直只按照老师的画来学。一开始我们跟着老师的 “平均样子” 学(用无噪声目标训练),等学到一定程度,我们再看看真正正确的图(原始目标),把老师没画好的地方改过来,这样就能既学得快又能画得准(兼顾无噪声训练优势和高频监督好处),这就是整个优化过程(ECO 方法)。

6. 实验

分析无噪声训练的影响

  • 探索优化景观:通过实验观察到无噪声训练的损失值有界,梯度表现良好,能提高训练稳定性和收敛速度。
  • 与香草训练和 KD 的比较:对比了无噪声训练(无 mixup)与香草训练和 KD 的训练曲线,表明无噪声训练能获得总体性能提升,而 KD 由于存在空间不一致问题,最终性能不如香草训练。
  • 不同批次大小的比较:在不同小批次大小下进行实验,验证了所提方法对小批次大小选择具有更强的鲁棒性,而香草训练在小批次下 PSNR 分数波动较大。
  • 估计误差的经验影响:实验表明在训练早期使用无噪声目标有明显改进,但不使用 mixup 策略时,最终性能会因忽略估计误差而低于原始训练方案,使用 mixup 后可在整个训练过程中获得优越性能。

在最先进方法上的评估

  • 实验设置:在基准数据集上验证方法的有效性,设置了实验参数和训练流程。
  • 基准比较:与香草训练在标准 SR 设置下进行比较,在 PSNR 和 SSIM 指标上取得了持续的性能提升,定性比较中能更清晰地恢复高频细节。
  • 更大比例因子和适应现实世界:在SR 任务和现实世界设置下进行实验,表明所提训练框架在这两种情况下均能带来性能提升,特别是在SR 中仅用 20% 的总迭代次数就能达到与香草训练相当的性能。
  • 架构和损失的独立性:分别使用 SwinIR 和损失验证了所提训练框架的适用性,不限于特定的 CNN 架构或损失。

7. 相关工作

回顾了图像超分辨率领域的相关工作,包括基于 CNN 的网络、ViT 和 Swin-based 网络的发展,以及对 SISR 目标函数的研究、知识蒸馏方法、处理 SISR 不适定性的方法等。

8. 局限

指出论文中提出的方法(式 (14))无法分离固有噪声项和估计误差项,在后期会重新引入固有噪声,但实验强调了初始步骤稳定性的关键作用,为整体性能提升奠定了基础,未来工作可进一步改进后期训练步骤。

9. 结论

总结了本文的工作,包括分析香草训练的潜在成分、估计质心获得无噪声下界、克服估计误差的方法以及实验结果表明所提训练框架能取得良好效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值