CVPR2022Oral专题系列(二):多帧图像合成与增强

目录

1. 简介

2. 特征对准

3. Pseudo-burst特征

4. 自适应上采样

5. 实验结果

总结

Reference


1. 简介

在本系列的上一篇博客中,我们已经介绍了一种低光图像的处理方法低光增强。对于一般性的手持拍照设备,受限于抖动以及被摄对象运动的影响,使得单帧图片会产生模糊。为了完成对类似图像的质量增强,Burst Image Restoration被提出(Burst: multi-frame)。其原理为通过设备所获取的一个图像序列,通过对帧间相关信息的分析(原文中用的是complimentary cues,我的理解为补全线索),以实现对模糊的处理,进而增强图像质量。Burst Image Restoration基于智能手机拍照系统,通过多帧图像合成接近于单反相机的拍照效果。这里存在一些挑战,包括设备的抖动以及被摄物体的移动均会使得多帧图像产生偏移,进而产生运动模糊或者重影。传统方法利用后期特征融合机制建立对准,该过程会阻碍帧间的信息交换。本博客介绍一种方法,Burst Image Restoration and Enhancement (BIRE) [1],通过建立pseudo-burst特征融合机制来实现灵活的帧间通信。具体来说,pseudo-burst特征由帧间信息交换而产生,包含了帧序列的补全细节。

BIRE仅关注的是帧间的信息交换,这样能够在最大程度降低图像质量退化,同时场景细节被保留和增强。该方法的核心点是建立一组pseudo-burst features,来结合从输入的brust帧中获取的补全信息以及连续的交换信息。pseudo-burst一般来说是不能轻易获得的,需要从独立的burst帧中通过对准计算来消除帧间的偏移,进而得到真正的pseudo-burst。为了实现对准,BIRE从每一burst帧中提取预处理特征,并使用一个边界加强的burst对准来匹配他们,进而得到pseudo-burst,并使用多尺度上下文信息对其进行加强。BIRE的最后一步从pseudo-burst提取出自适应聚合信息来逐步的增加分辨率,同时融合pseudo-burst特征。实验证明,所提方法对于burst超分辨率,低光增强以及去噪都有较好的性能。总体看下来,本文的主要贡献就是pseudo-burst特征提取以及针对特征的融合算法。接下来,我们来展开看下这两部分内容。


2. 特征对准

 图1.Pipeline of Edge boosting feature alignment (EBFA).

为了获得具有帧间补全信息的pseudo-burst特征,需要对burst图像进行对准。BIRE提出了一种称为边界加强特征对准方法(Edge Boosting Feature Alignment,EBFA),以实现该目标。建立对准,要考虑几个影响因素,包括噪声,空间位移以及颜色偏移。BIRE基于modulated deformable convolutions [2]提出EBFA,在原有设计的基础上,增加了feature处理模块,以处理噪声问题。图1展示了整个算法的流程图。

Feature处理模块(FPM)通过使用一个残差结构,使得冗余的低频信息能够通过跳跃实现链接 [3]。通过建立全局像素关联依赖建立场景属性描述已被证明在图像恢复任务中具有良好的表现,BIRE基于该思路建立了一个全局上下文注意力(global context attention)机制,利用残差块来细化潜在的表达,如图1的b部分。让{x^b}代表burst的初始潜在表达,包含B幅burst图片,f个特征通道数,残差全局上下文注意力模块被定义为:

 

W_k表示一个卷积层,伴随一个尺度为k*k的filter,每一个W_k关联一个分离层,伴随独立参数, γ表示leaky ReLU 激活,Ψ是一个softmax激活层,⊗表示矩阵乘法,α(.)是全局上下文注意力。

Burst特征对准模块用于对准burst图片。使用第一帧y^{b_r}作为基准帧,将其他帧向基准帧来对齐。基于偏移卷积层,预测偏移n以及对于y^{b_r}的调和标量m。对准的特征为:

 W^d和 W^o表示的是可变形和偏移卷积。具体来说,每个未知n在对齐特征图中被计算:

K=9,m在[0,1]之间对于每个n_i,包含于{(-1,1),(-1,0),...,(1,1)},是一个3*3核的标准网格。卷积计算在一个非均匀的位置(n_i+△n_i)上被执行,n_i可以是小数。为了避免小数,该操作采用双线性插值实现。

特征对准受工作DAM [4] 的启发。改动的地方包括: 不提供精确的groundtruth作为监督,EBFA学习隐式对齐。此外,为了加强特征对齐,并且校正对齐误差,EBFA使用FPM获得细化的对齐特征(RAF),接着通过比较RAF和基准帧的差异,并将其加入到RAF,来计算高频残差。EBFA整体可被总结为:

e^b表示对准的burst特征图,W_3(.)是卷积。虽然可变形卷积在图1的a部分仅被展示了一次,实际我们依次应用三个这样的层来提高我们EBFA模块的变换能力。


3. Pseudo-burst特征

 图2.PBFF示意图.

BIRE提出一种称为pseudo-burst feature fusion(PBFF)的机制,来实现灵活的帧间信息交换。PBFF模块生成特征张量,通过从所有的burst特征图中连接相应的通道特性来实现。因此,每个在pseudo-burst中的特征张量包含所有实际burst图像特征的补全属性。处理内部burst特征响应简化了表达学习任务,通过解耦burst图像特征通道来合并相关信息。提供对准的burst特征集e,伴随B个burst图片以及f个通道数,pseudo-burst被生成:

尖括号表示聚合操作,e_c^1是第一个对准burst特征图e^1的第c个特征图。W^p是卷积层伴随f个输出通道,S={S^c}表示尺度为f*f*H*W的pseudo-burst。本文中,f被设置为64。即使获得了pseudo-burst,获得他们的深度表示也是十分重要的。PBFF使用一个轻量级的U-Net从pseudo-bursts中来提取多维尺度特征(MSF)。这里使用在U-Net中的分享权重,并利用FPM来替换标准的卷积。


4. 自适应上采样

  图3.上采样示意图. 

上采样是BIRE的最后一步,用来从LR(low-resolution)特征图中生成超分辨率图像。传统方法使用pixel-shuffle层来单步执行上采样。对于burst图片,可以有效的利用多帧信息来实现上采样结果合成。为此,BIRE设计了自适应上采样模块(AGU),来自适应地逐步地融合多个LR特性在上采样阶段。举例说明,一方面,为了在帧间进行去噪,对无纹理区域具有统一的融合权值是有益的;另一方面,为了防止重影,对于任何错位的帧配以较低的权重是有益的。图3b中,展示了AGU模块使用基于pseudo-burst fusion模块生成的特征图S作为输入,通过三级渐进上采样提供超分辨输出。在AGU内,我们依次将pseudo-burst特征分成4组,以替换后面任何复杂的选择机制。这些特征组被上采样,在图3c中展示了一个对应的体系描述。该体系第一次计算一个稠密的注意力图(a^c),为每一个像素位置带来注意力权重。稠密的注意力图按照元素方式对应到burst特征。最后,对于一个给定特征组S^g的上采样响应以及分配的注意力图a^g在第一次上采样层被表示为:

ψ(.)说明softmax激活函数,W_T是一个3*3的转置卷积层,a^g表示稠密注意力图对于第g个burst特征相应组(S^g)。为了执行对burst SR的scale*4操作,AGU需要实现*8的上采样(额外的*2产生于马赛克化的RAW LR帧)。因此,在AUG中我们使用三个层以实现逐层*2的上采样。网络结构生成64pseudo-bursts,自然地在I、II和III层分别形成了16、4和1个特征组。上采样算子被每各组的每一个层共享,以避免增加额外的网络参数。


5. 实验结果

 图4.(a) 基准帧 (b) BIRE结果 (c) Ground truch. 

 图5.主流方法对比.


总结

BIRE的整个架构利用了很多技术,对我来说,读起来很费劲。文中涉及到的很多概念,如burst图像,pseudo-burst特征,用于低频信息跳跃链接的残差结构等等,对于没有相关背景知识的读者来说,理解起来有一定困难。在不太了解其技术细节的前提下,我对这篇文章的感受是,似乎利用了注意力机制,对burst图像序列实现帧间相似性的衔接,并通过卷积计算,在帧实现对准的前提下,实现不同帧之间的通讯。所以,文章的主要创新点,就是设计了EBFA来实现特征对准,以及pseudo-burst特征融合,建立帧间信息交互,实现特征补全或加强。


Reference

[1] A. Dudhane, SW. Zamir, S. Khan, et al. Burst image restoration and enhancement [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5759-5768.

[2] X. Zhu, H. Hu, S. Lin, and J. Dai. Deformable convnets v2: More deformable, better results. In CVPR, 2019. 2, 4.

[3] Y. Zhang, K. Li, K. Li, L. Wang, B. Zhong, and Y. Fu. Image super-resolution using very deep residual channel attention networks. In ECCV, 2018. 2, 4, 11.

[4] Y. Tian, Y. Zhang, Y. Fu, and C. Xu. Tdan: Temporally-deformable alignment network for video super-resolution. In CVPR, 2020. 2, 4, 7.

  • 5
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿老甘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值