【组会整理及心得】SpatiallyAdaptiveSSID、GRL、Lite-Mono、FcF

本文介绍了多篇CVPR2023论文的创新点,包括使用自监督学习进行真实世界图像去噪,通过改进的盲点网络处理平坦区域,局部感知网络恢复纹理细节;提出锚定条纹自注意力和Transformer结构以建模图像层次;以及轻量级的CNN与Transformer架构在单目深度估计中的应用,同时展示深度信息在图像超分辨率中的作用;此外,还讨论了一种结合结构和纹理的图像修复方法。
摘要由CSDN通过智能技术生成

【CVPR2023】Spatially Adaptive Self-Supervised Learning for Real-World Image Denoising

【本文贡献】

提出了一种新的自监督真实世界图像去噪视角,即根据图像特征学习去噪网络的空间自适应监督。对于平坦区域,本文将盲点网络扩展到盲邻域网络(blind-neighborhood network, BNN),以提供监督信息;对于纹理区域,本文提出了一个局部感知网络(locally aware network, LAN)来从相邻像素中学习网络。

【网络结构】

该网络是自监督图像去噪网络,训练时有三个阶段:

  1. 使用盲邻域网络BNN用自监督方式去除平坦区域的空间相关噪声。这里的BNN是对盲点自监督网络BSN的改进,BSN只是扣去了最中央的单个像素,而BNN扣去了中间更大的区域,提取的是更远离中心点的像素,对于平坦区域来说是合理的,并且可以更好的减少周围噪声像素的影响。
  2. 用上一阶段BNN得到的结果作为监督信息来训练局部感知网络LAN,将训练后的LAN用到纹理区域,生成纹理细节。上一阶段的BNN对整个图像进行处理,经过BNN处理后,平坦区域的局部方差小,纹理区域的局部方差大,因此可以区分出平坦区域和纹理区域,并且经过BNN处理的平坦区域相当于干净信号,可以为LAN的训练服务。
  3. 使用前两个阶段训练得到的结果监督主干去噪网络U-Net的训练。

【心得体会】

LAN可以帮助生成纹理细节,可以用在图像超分工作里。

【CVPR2023】Efficient and Explicit Modelling of Image Hierarchies for Image Restoration

【本文贡献】

本文试图回答以下三个问题:

  1. 如何有效地对高维图像中的全局范围特征进行建模
  2. 如何通过单个计算模块显式地对图像层次(局部、区域、全局)进行建模
  3. 这种联合建模如何为不同的图像恢复任务带来一致的性能改进

为解决以上三个问题,首先,本文提出了锚定条纹自注意力anchored stripe self-attention,用于区域范围之外的有效依赖性建模;然后,本文提出了一种新的Transformer网络GRL,以在单个计算模块中显式地建模全局、区域和局部范围相关性;最后,将所提出的GRL应用于各种图像恢复任务,试验了模型效果。

【网络结构】

 本文发现无论像素来自HR图像还是LR图像,像素与另一个图像的相似度热图都很相似,由此本文提出了锚定注意力,引入了“锚点”作为一个中间体,在不损失图像整体结构的情况下将图像信息汇总到低维空间,减少token的数量,降低计算复杂性。

除此之外,由于自然界的图像具有各向异性,本文使用条纹注意力来改进锚定注意力,形成了锚定条纹自注意力anchored stripe self-attention,它将输入特征分成两份,分别计算水平窗口注意力和垂直窗口注意力。

最后本文的Transformer如图所示,其中卷积分支提取局部特征,窗口注意力分支提取区域特征,锚定条纹注意力提取全局特征。

 网络整体结构:

【心得体会】

Transformer里使用三个分支分别处理三个层次的特征,层次化真棒(

【CVPR2023】Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation

【本文贡献】

提出了一种新的轻量级架构,称为Lite-Mono,用于自监督单目深度估计,提出了连续扩展卷积(CDC)模块和局部全局特征交互(LGFI)模块,前者用于提取丰富的多尺度局部特征,后者利用自注意机制将远程全局信息编码到特征中。实验证明它以最少的可训练参数达到了最先进的水平,并且泛化能力强。

【网络结构】

整体上使用DepthNet来估计输入目标图像的多尺度深度图,用PoseNet估计两个相邻帧之间的相机运动,然后生成重建目标图像:

DepthNet的编码器由四个阶段组成,它使用连续扩展卷积(CDC)模块和局部全局特征交互(LGFI)模块来提取层次特征。

 PoseNet使用预先训练好的ResNet18作为encoder,输入是一对彩色图像,输出是图像的六自由度相对姿态6-DoF relative pose。

【心得体会】

将深度信息引入图像超分:【ECCV2020】Zero-Shot Image Super-Resolution with Depth Guided Internal Degradation Learning(原来真的有人会这么做,甚至是零样本。。。)

【WACV2023】Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand

【本文贡献】

本文发现可以在更深的从粗到细的基于 GAN 的生成器中获得更好的结构信息,使用多尺度高感受野四层卷积层更好地合成重复纹理。因此将两者的优点结合起来,提出了一种用于通用图像修复的傅里叶由粗到细(Fourier Coarse-to-Fine,FcF)生成器,该模型可以同时很好地处理纹理和结构,并很好地推广到自然和人造场景。

【网络结构】

整体是个GAN,生成器采用了快速傅里叶合成模块FaF Synthesis Module,因此称为傅立叶粗到细(FcF)生成器。FaF Synthesis Module的核心结构是快速傅里叶卷积残差快FaF-ResBlock,FaF-ResBlock由两个快速傅里叶卷积层组成。

 FFC基于通道的快速傅里叶变换FFT,将通道分成两个分支,一个是局部分支,它使用传统卷积提取空间细节,另一个是全局分支,使用光谱变换模块提取长距离的上下文信息。

【心得体会】

《图像补全改进的关键:结构纹理两手抓》

使用从粗到细的GAN生成器可以获得更好的结构信息,更好的纹理信息可以通过多尺度卷积获得,适当使用快速傅里叶变换可以减少卷积操作的运算量

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值