SAM论文笔记：A Stereo Attention Module for Stereo Image Super-Resolution

最新推荐文章于 2024-07-24 21:02:22 发布

GracePro

最新推荐文章于 2024-07-24 21:02:22 发布

阅读量2.3k

点赞数

文章标签：计算机视觉深度学习算法

本文链接：https://blog.csdn.net/GracePro/article/details/106769386

版权

作者：Xinyi Ying、 Yingqian Wang 、 Longguang Wang、 Weidong Sheng、 Wei An、Yulan Guo
论文被 IEEE Signal Processing Letters (SPL2020)期刊录用。
原论文代码链接

1.1 stereo图像SR方法总结

（1）StereoSR(CVPR2018)
在这里插入图片描述
（2）：PASSRnet (CVPR2019)

（3）：SPAMnet（AAAI2020）

它将左右图的信息融合分为了两个阶段。拿从右到左的转换来举例，在第⼀个阶段中，右图通过视差注意⼒图转到左图，并与左图特征（经残差块转换）以及左图经过⾃注意机制转换得到的特征级联，⽽后初步融合；在第⼆阶段中，SPAM利⽤左右视⻆的视差注意⼒图计算得到两边视⻆的disparity map，并通过⽐对左右图 disparity 的⼀致性得到左右图的valid masks，实现occlusion-aware 的左右特征融合。

1.2 stereoSR面临的挑战：

立体SR网络应具有强大的cross-view信息挖掘能力。注意，立体图像之间的差异沿水平极线变化很大，导致在捕获可靠的stereo correspondence面临巨大的挑战。
立体SR网络也应该在intra-view信息开发方面具有强大的能力。然而，与SISR数据集相比，立体SR数据集的图像质量和多样性相对较低。立体图像SR算法要充分利用这些数据集中的intra-view信息是一个挑战。

1.3 本文算法概述：

作者提出了一个通用的stereo attention module（SAM），可以扩展到任意的SISR网络。具体来说，对立体图像应用两个相同的预训练的SISR网络提取特征。然后将几个SAMs插入到网络中，在不同的阶段interact cross-view information。最后，将intra-view 和 cross-view information在SISR网络中合并，重构出HR立体图像。不同于StereoSR、PASSRnet算法，他们在立体数据集上从零开始训练，本文使用预训练的SISR模型，仅在立体数据集进行fine-tune 。表I显示，使用带有fine-tune操作的SAM可以获得更好的性能。

1.4 贡献：

提出了一个通用的SAM模块，能够扩展到预训练的SISR网络解决立体图像超分辨率问题。有效利用cross-view信息，同时保持intra-view信息的利用的优势；
提出的SAM可以插入到不同阶段以增强cross-view信息交互；
低质量立体图像数据集带来的性能下降问题可以通过使用预先在SISR数据集上训练的SISR网络解决；
大量实验表明了该方案的有效性。如表IV所示，SAM可以应用于不同的SISR网络，以提高其性能。

2. 方法细述

在这里插入图片描述
首先将立体图像送到两个相同的预先训练的SISR网络(如VDSR)，生成特征表示。然后，在SISR网络之间插入若干个SAM，以交互不同阶段的cross-view信息。在两个SISR网络中，cross-view和intra-view信息通过卷积进一步合并。最后，重构了HR立体图像。

2.1 Stereo Attention Module

SAM能够以一种symmetric 、compact的方式双向交互立体信息。
在这里插入图片描述

2.2 损失函数

在这里插入图片描述
u=0.01表示正则化权值,n是SAM的数量。 $L ^{SR}$ 表示均方误差MSE，是超分辨率的结果和真实HR图像之间的SR损失；

光照损失， $\odot$ 表示Hadamard product；光度损失的目标是约束整个网络以监督的方式学习交叉视图信息，从而生成更合理的注意图。

3. 实验

3.1 实验细节

训练集：Flickr1024数据集；因为它是迄今为止最大的真实数据集，而在该数据集上开发的立体图像SR方法可以获得全面的优越性能。
先downsampled所有训练集(x2, x4)生成LR图，以20为步长，crop LR图像成90*30patches。HR图像做相同的裁剪处理。
数据增强：随机水平、垂直翻转
Nvidia RTX 2080Ti GPU
加载预训练的SISR模型后，使用Adam方法对网络进行fine-tuned，学习率0.0001；当PSNR值在验证集上收敛时，停止训练。
测试集：20张KITTI数据集图像、5张Middlebury数据集图像。

3.2 Ablation Study

使用不同的策略来研究不同的设计选择所带来的潜在影响。
(1) Fine-Tune
在这里插入图片描述
(2) 不同阶段的SAM

在网络的后期插入SAM时，不能完全合并 cross-view和 intra-view信息
(3) 不同的SAM个数

PSNR和SSIM随SAM增加而增加；随着SAMs数量的增加，改进趋于饱和。这是因为，已经充分利用了跨视图信息，进一步增加SAM个数只能提供微小的改进。