狗都能看懂的Deblurring via Stochastic Refinement论文详解

Deblur Image

在图像去模糊领域,传统的优化方法常常依赖于像素级的评价指标,如峰值信噪比(PSNR)和结构相似性指数(SSIM)。这些指标通过量化图像的误差或相似度,为图像质量提供了一个看似客观的衡量。但如果了解过这个领域的朋友肯定知道,这些传统指标并不总是能够与人类视觉感知相匹配。这样导致的问题就是:明明指标精度已经很高了,但是实际的去模糊效果却很差。

像PSNR这样的指标可能会误导去模糊算法的优化方向。例如,PSNR倾向于奖励那些增加图像整体亮度的变化,而这可能会导致图像细节的丢失,使得去模糊后的图像看起来过于平滑或失真。此外,PSNR等指标通常忽略了图像的内容和场景的复杂性,仅仅关注像素强度的平均差异,这在处理具有丰富纹理和复杂结构的图像时尤其成问题。

在18年的CVPR会议上,有这么一篇文章The Perception-Distortion Tradeoff将图像生成的指标分成了两类。第一类叫Distortion(失真度量),像PSNR、SSIM、MSE等这类偏向于pixel-wise的像素级别的指标都是属于这一类的,特点就是有ground truth的情况下去做逐像素的比对。第二类是Perception(感知质量)模拟人的主观视觉,比如说LPIPS、NIQE、FID等,一般现在用的比较多的是FID,这一类指标的特点就是没有ground truth。

而这两个指标如果绘制成图标的话,会得到下面这样一条曲线。在这条曲线上的所有点都代表着某一个重建模型,这些模型都会对应两个性能,这两个性能是此消彼长的。有经验的同学可能会知道,GAN网络一般Perception比较高,而非GAN的网络则是Distortion比较高。

trade-off

在这里提及这个论文其实也是和接下来要讲解用Diffusion Model去模糊技术有关系的。之前的这些生成网络都是确定性的预测,也就是说模型训练好后,只要输入图片是固定的,输出图片也是固定的,其实是没什么随机性在里面的。但如果单纯从数学角度去考虑这个问题,从一个图作为初始点,其解集是无穷多的,我们可以从一个无穷多的解集里面选一个最好、最合适的。但显然,现有的方法是做不到的。所以本文提出了一个方法,它生成的结果,可以在这条曲线上任意移动,以达到我们想要的效果。

Deblurring via Stochastic Refinement

论文地址:https://arxiv.org/pdf/2112.02475.pdf

论文整体的思路和网络结构都比较简单,里面的一些数学推导看起来多,但熟知DDPM的同学应该一下就能看懂,这里就不展开推导了。

deblur

文章提出了predict-and-refine算法,首先predictor用 g θ g_\theta gθ将模糊图片预测一个大致清晰的图片,这个图片对应图中的Initial Prediction,作为预测的baseline,这是predict的过程。接着Denoiser再将模糊图片作为参考图与噪声一起输入到去噪网络 f θ f_\theta fθ里,这个地方思路其实就和上一篇分享的博客SR3(Image Super-Resolution via Iterative Refinement)思路一致了。本质上都是把输入图作为约束条件给到扩散网络,控制它生成的内容,这就是refine的过程。这里去噪网络最终输出的 x 0 x_0 x0是一个互补信息,不要简单的认为它是一个模糊分量,而就直接相减了,它对于Initial Prediction来说是一个互补信息,所以为了的到更清晰的图像,需要将Initial Prediction加上Residual结果得到最终的Sample。这里Residual对应的ground truth是实际清晰图像和Initial Prediction的差值。

整个算法就是下图所展示的流程:

Algorithm

另外这里提一下,我在阅读论文的时候发现了一处错误:

error

这里的 x 0 x_0 x0应该是 y y y y y y才是原始输入的模糊图像。

改进点和可以参考的trick

  • 改进点1:参数量、计算量的减少,也是他这个框架的优点。由于Denoiser要学习的其实只是一个残差分量,它所需要生成的内容不需要这么精细,那么计算量和参数量也会相应的减少。Initial Prediction也会有一个不错的baseline,至少下限不会很低。

  • 改进点2:Sample averaging,由于每次的采样结果具有随机性,所以可以多重建几次,把结果取平均,一种self-ensemble。理论上可以显著提高Distortion的指标。

  • 改进点3:Traversing the Perception-Distortion curve,这就是我们上一节说到的,如何在曲线上移动,使得取到一个合适的值。采样的步数越多,则主观质量越好,反之则客观质量比较好。

  • 改进点4:Resolution-agnostic Architecture,训练的时候为了提高重建细节,不选择resize原图像,而是在原图上crop一个固定size的小图进行训练。测试的时候再用大图。

  • 改进点5:Any Resolution,为了支持任意分辨率的图片,删除了 self-attention、位置编码和group normalization

总结

把Diffusion Model迁移到了去模糊任务上,而且提出了Predict and Refine的思路,有效降低了参数量和计算量,对扩散模型的落地和部署有比较大的意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值