【组会整理及心得】SpatiallyAdaptiveSSID、GRL、Lite-Mono、FcF

最新推荐文章于 2024-02-03 13:27:16 发布

深蓝与夜的呼吸

最新推荐文章于 2024-02-03 13:27:16 发布

阅读量741

点赞数 3

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_55708326/article/details/129990372

版权

本文介绍了多篇CVPR2023论文的创新点，包括使用自监督学习进行真实世界图像去噪，通过改进的盲点网络处理平坦区域，局部感知网络恢复纹理细节；提出锚定条纹自注意力和Transformer结构以建模图像层次；以及轻量级的CNN与Transformer架构在单目深度估计中的应用，同时展示深度信息在图像超分辨率中的作用；此外，还讨论了一种结合结构和纹理的图像修复方法。

摘要由CSDN通过智能技术生成

【CVPR2023】Spatially Adaptive Self-Supervised Learning for Real-World Image Denoising

【本文贡献】

提出了一种新的自监督真实世界图像去噪视角，即根据图像特征学习去噪网络的空间自适应监督。对于平坦区域，本文将盲点网络扩展到盲邻域网络（blind-neighborhood network, BNN），以提供监督信息；对于纹理区域，本文提出了一个局部感知网络（locally aware network, LAN）来从相邻像素中学习网络。

【网络结构】

该网络是自监督图像去噪网络，训练时有三个阶段：

使用盲邻域网络BNN用自监督方式去除平坦区域的空间相关噪声。这里的BNN是对盲点自监督网络BSN的改进，BSN只是扣去了最中央的单个像素，而BNN扣去了中间更大的区域，提取的是更远离中心点的像素，对于平坦区域来说是合理的，并且可以更好的减少周围噪声像素的影响。
用上一阶段BNN得到的结果作为监督信息来训练局部感知网络LAN，将训练后的LAN用到纹理区域，生成纹理细节。上一阶段的BNN对整个图像进行处理，经过BNN处理后，平坦区域的局部方差小，纹理区域的局部方差大，因此可以区分出平坦区域和纹理区域，并且经过BNN处理的平坦区域相当于干净信号，可以为LAN的训练服务。
使用前两个阶段训练得到的结果监督主干去噪网络U-Net的训练。

【心得体会】

LAN可以帮助生成纹理细节，可以用在图像超分工作里。

【CVPR2023】Efficient and Explicit Modelling of Image Hierarchies for Image Restoration

【本文贡献】

本文试图回答以下三个问题：

如何有效地对高维图像中的全局范围特征进行建模
如何通过单个计算模块显式地对图像层次(局部、区域、全局)进行建模
这种联合建模如何为不同的图像恢复任务带来一致的性能改进

为解决以上三个问题，首先，本文提出了锚定条纹自注意力anchored stripe self-attention，用于区域范围之外的有效依赖性建模；然后，本文提出了一种新的Transformer网络GRL，以在单个计算模块中显式地建模全局、区域和局部范围相关性；最后，将所提出的GRL应用于各种图像恢复任务，试验了模型效果。

【网络结构】

本文发现无论像素来自HR图像还是LR图像，像素与另一个图像的相似度热图都很相似，由此本文提出了锚定注意力，引入了“锚点”作为一个中间体，在不损失图像整体结构的情况下将图像信息汇总到低维空间，减少token的数量，降低计算复杂性。

除此之外，由于自然界的图像具有各向异性，本文使用条纹注意力来改进锚定注意力，形成了锚定条纹自注意力anchored stripe self-attention，它将输入特征分成两份，分别计算水平窗口注意力和垂直窗口注意力。

最后本文的Transformer如图所示，其中卷积分支提取局部特征，窗口注意力分支提取区域特征，锚定条纹注意力提取全局特征。

网络整体结构：

【心得体会】

Transformer里使用三个分支分别处理三个层次的特征，层次化真棒（

【CVPR2023】Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation

【本文贡献】

提出了一种新的轻量级架构，称为Lite-Mono，用于自监督单目深度估计，提出了连续扩展卷积（CDC）模块和局部全局特征交互（LGFI）模块，前者用于提取丰富的多尺度局部特征，后者利用自注意机制将远程全局信息编码到特征中。实验证明它以最少的可训练参数达到了最先进的水平，并且泛化能力强。

【网络结构】

整体上使用DepthNet来估计输入目标图像的多尺度深度图，用PoseNet估计两个相邻帧之间的相机运动，然后生成重建目标图像：

DepthNet的编码器由四个阶段组成，它使用连续扩展卷积（CDC）模块和局部全局特征交互（LGFI）模块来提取层次特征。

PoseNet使用预先训练好的ResNet18作为encoder，输入是一对彩色图像，输出是图像的六自由度相对姿态6-DoF relative pose。

【心得体会】

将深度信息引入图像超分：【ECCV2020】Zero-Shot Image Super-Resolution with Depth Guided Internal Degradation Learning（原来真的有人会这么做，甚至是零样本。。。）

【WACV2023】Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand

【本文贡献】

本文发现可以在更深的从粗到细的基于 GAN 的生成器中获得更好的结构信息，使用多尺度高感受野四层卷积层更好地合成重复纹理。因此将两者的优点结合起来，提出了一种用于通用图像修复的傅里叶由粗到细(Fourier Coarse-to-Fine，FcF)生成器，该模型可以同时很好地处理纹理和结构，并很好地推广到自然和人造场景。