DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction
DejaVu:条件再生学习增强密集预测
CVPR 2023
Background
对于判别性任务,模型需要最小的特征集来解决任务,任何对目标数据子集不具有判别能力的特征都被忽略。
基于深度补全,并利用基于重建的损失来学习互补图像特征,这有助于更好地捕捉对象结构和语义一致的特征。根据这样的直觉,基于重构的辅助损失在表示中应该比只有区别的训练捕获更多的信息。
Novelty
引入了一种新的训练策略DejaVu,用于带有附加条件重构目标的密集预测任务,以提高任务特定基网络的泛化能力。
首先编辑输入图像删除部分结构信息(如边界),保留上下文信息。使用一个条件再生模块,使用编辑后的图像和基础网络生成的密集预测来重建图像的缺失信息。通过在训练过程中加入这个重建图像的目标,鼓励基础网络去学习和使用这些结构信息,使得预测更加准确,边界更清晰,空间一致性更好。
Contribution
- 设计了一种新的学习策略DejaVu,它利用从编辑的输入图像的条件图像重建来提高密集预测任务的整体性能。
- 作者建议对输入图像进行编辑,以强制基础网络学习精确的密集预测,以便这些任务能够精确地调节重建过程。
- 通过将重建目标纳入网络参数,设计了一种新的共享注意力方案——DejaVuSA。
- 进一步提供了对DejaVu的扩展,例如文本监督损失DejaVu- ts和循环一致性损失DejaVu- cl,进一步提高了在有额外数据可用时的性能。
- DejaVu是一个通用的框架,可以在不增加推理成本的情况下,提高多个网络在众多数据集上的基本密集预测任务的性能。
Method

训练一个密集预测网络(基础网络) h h h,输入图像 I I I,生成密集的输出 C = h ( I ) C=h(I) C=h(I)。首先编辑输入图像 I I I,接下来将编辑过的 I R I_R IR,和密集输出作为条件传递给条件重建模块(CRM),CRM输出一个重建的图像 I G I_G IG,与原始图像比较。
此外还提供了一个可选的共享注意力模块DejaVu-sa,可以将DejaVu损失的重建操作集成到推理中的基础网络中。
图像编辑

选择合适的编辑风格对于保证图像再生可行性以及密集预测网络收到有用的反馈、学习更好的特征是至关重要的。
考虑了空间和光谱两个领域的信息编辑。
空间编辑:固定概率随机删除像素、棋盘式的删除固定大小的块、随机删除固定大小的块。
光谱编辑:低通滤波编辑(首先进行离散余弦变换(DCT),删除高频的DCT分量,再攻哟逆变换得到编辑后的图像)、带阻滤波编辑(删除一定范围内的DCT分量,可以抹掉物体层面的细节)
当使用这些编辑过的图像用于图像重建时,密集预测网络将需要在其预测中嵌入相应的信息(如扭曲的图案、边缘、对象细节),可以促使密集预测网络捕捉更多的细节和结构信息。
条件再生模块(CRM)
CRM接受编辑后的图像 I R I_R IR和密集预测C作为输入,重建输入图像I。
采用两种重建模式:
1.正向再生模式CRM-F
由堆叠的Convolution-BatchNorm-ReLU块组成
2.递归再生模式CRM-R
由单个Convolution-BatchNorm-ReLU块组成,递归地生成重构图像,迭代步数为超参数。
实验表明,CRM-R算法对随机遮挡效果更好,而CRM-F算法对结构化遮挡效果更好。
CRM的输入是N×H×W(密集预测,N为预测通道数)和3×H×W(编辑后的图像)。使用两种操作组合两个输入:1.将编辑后的图像在通道维度上求平均,得到1×H×W的图像,广播到N个通道,与密集预测逐元素相乘。2.沿通道维度连接,得到3 +N个通道的输入。
更新基础网络的DejaVu Loss
重建的 I G I_G IG与输入图像 I I I进行比较,计算DejaVu Loss。使用均方误差(MSE)和LPIPS损失的加权和,在训练时将该损失加到原任务损失项中。
DejaVu共享注意力模块(DejaVu- SA)
(可选模块)输入为图像 I I I和密集预测 C C C,输出是增强的预测 C ~ \tilde{C} C~。
首先对输入图像 I I I进行光谱编辑操作,得到编辑后的红外图像输入。如图通过多头注意操作后,通过重建解码器 D r D_r Dr生成图像 I G I_G IG,通过增强解码器 D e D_e De得到增强的预测 C ~ \tilde{C} C~。 C ~ \tilde{C} C~作为最终的预测。
Dejavu框架的扩展
可以在重新生成输入图像后对密集的预测产生进一步的增强。
再生文本监督(DejaVu-TS)
在从密集预测中重新生成输入图像后,作者提出了一种新的基于文本的监督目标。匹配原始图像 I I I和重新生成的图像 I G I_G IG之间的CLIP特征。可以分别得到重构图像和输入图像的CLIP特征fG = CLIP(IG)和fI = CLIP(I)。对于分割任务,CLIP模型可以仅由类名的令牌化输入来条件化。特征匹配的损失是特征之间的均方误差,可以用于评估重建图像与原始输入图像在特征层面的相似度。
循环一致性损失(DejaVu-CL)
一旦生成了再生的图像IG,就可以将其通过基础网络 h h h生成再生的预测 C G C_G CG。应用MSE损失来匹配输出 C G C_G CG和密集预测 C C C。
Experiment
添加DejaVu的效果
语义分割
在cityscape数据集上,使用HRNet18作为骨干网络,添加DejaVu后mIoU提升1.3,但更换HRNet48后,DejaVu损失的训练仍然有所改善,但提升较小。在HRNet-OCR和HRNet-OCR- HMS中加入DejaVu,性能也有所提升。
在ADE20K数据集上对现有语义分割基线进行改进,在语义FPN、UPerNet和DenseCLIP之上添加DejaVu loss可以在mIoU中产生一致的效果提升。
全景分割
在COCO数据集上进行全景分割,性能有提升。
自监督单目深度估计
引入DejaVu后取得了更低的绝对相对误差(Abs Rel)、平方相对误差(Sq Rel)和更高的阈精确度(δ1)。
与PackNet相比,Monodepth2产生了更高的Sq Rel。然而,DejaVu的训练大大减少了Sq Rel误差,成功地超过了PackNet。这表明除了常规的监督训练之外,DejaVu也可以很好地应用于完全自监督的训练方案。
多任务学习
使用DejaVu loss训练多任务学习模型,在所有密集任务中,mIoU都有所提高,深度估计和表面法向估计误差都有所降低。
消融实验
可视化

第一行显示了cityscape的语义分割,©栏显示没有DejaVu损失的基线预测,(d)栏显示有DejaVu损失的预测。使用DejaVu产生了更好的质量的语义和全景分割掩码,因为它可以更好地感知路面的结构。此外,重新生成的图像(f)在结构上与输入图像(a)相似,但存在一定的误差。在第二行和第三行,显示了NYUD-v2表面法线估计的视觉结果,与基线©相比,获得了更好的质量预测(d)。此外,重建模块锐化了光谱编辑的输入图像(e),以产生重建图像(f)。
改变编辑的类型
在NYUD-v2数据集上测试,比较了随机删除块的空间编辑和带阻滤波的光谱编辑。在所有任务中都可以提升性能,使用空间编辑,使得语义分割的性能提升较显著,使用光谱编辑,深度估计和表面法向估计的性能提升较显著。因为分割是一个像素级的分类任务,因此效果最好的是填充空间的重建任务。深度和表面法向估计是一项回归任务,需要纹理信息(对应频谱的重建)以学习准确的形状来产生锐化的重建结果。
对比了光谱编辑中删除不同频带对深度估计任务效果的影响,当使用删除中间频带进行编辑时效果最好,因为大部分形状信息都包含在光谱的中间频带中。高频带包含纹理伪影,低频带包含纹理,这两者对深度的估计都无作用。
DejaVu的扩展
DejaVu文本监督
在DejaVu Loss的基础上添加文本监督可以提高语义分割的性能。因为文本监督涉及到原始输入图像和重建的图像之间的CLIP特征匹配。
DejaVu共享注意模块
在cityscape语义分割任务上进行评估。使用DejaVu-SA在不同规模的HRNet上均取得了性能提升。
与HRNet20相比,采用DejaVu-SA的HRNet18模型可以产生更高的mIoU分数,而GMacs和参数量较低。这意味着增强的性能不是由于增加的模型复杂性,而是由于额外嵌入的基于重建的上下文信息。
949

被折叠的 条评论
为什么被折叠?



