论文名字:Discrete Cosine Transform Network for Guided Depth Map Super-Resolution CVPR2022
论文下载地址:https://arxiv.org/pdf/2104.06977
论文代码地址:https://github.com/Zhaozixiang1228/GDSR-DCTNet
引导深度超分辨率(GDSR):存在同一场景的高分辨率(HR)RGB图像和低分辨率深度图像,重建高分辨率深度图像。
整体网络框架如下图所示:
先介绍一些符号代表的内容:
HR RGB表示为:
R
R
R
HR RGB的亮度通道:
R
~
\widetilde{R}
R
LR depth表示为:
L
~
\widetilde{L}
L
LR depth上采样:
L
L
L
HR depth表示为:
H
H
H
我们可以通过最小化下面的能量方程来获取
H
H
H
L
(
⋅
)
\mathcal{L}(\cdot)
L(⋅)代表拉普拉斯过滤器,
W
(
⋅
)
\mathcal{W}(\cdot)
W(⋅)代表有用边缘的选择,
∘
\circ
∘代表元素乘法,上式导数求0可得
利用2D泊松等式的求解方法(参见),可得:
上述方法存在一些问题:
1.边缘选择需要确定(这个用网络学)
2.超参数
λ
\lambda
λ需要手动设置,影响模型的灵活性(好奇)
3.优化单通道很难建立跨模态内部特征相关性(???)
下面逐个建设框架中的四个模块
SCFE(半耦合特征提取模块):因为RGB的强度边缘和深度图像的深部不连续性存在联系,因此两者有共同的信息,但同时两者又有自己独特的信息,所以提出该模块(可以看作是encoder)
有一部分kernel是公用的,一部分kernel是单独使用。
GESA(引导边缘空间注意模块):问题1中的边缘就由该模块解决
DCT(离散余弦变换):作为一个模块插入,增加灵活性(??)
DR(深度图重建模块):将处理好的特诊重建为深度图(可以看作是decoder)
损失函数使用了L2-loss。
实验结果:
验证SCFE模块中C和P对网络的影响,指标为RMSE:
验证边缘空间注意力模块和可学习权重 λ \lambda λ
定性和定量比较,一下图片为误差图,越暗越好
参数量的比较
消融实验:
1.半耦合模块变成完全独立模块
2.半耦合模块变成完全共享模块
3.移除DCT模块,使用CNN代替
4.移除可学习参数,用常数代替
5.半耦合模块中没有跳跃连接层