背景:就是为了解决RGB与Depth融合问题,之前的方法主要关注与局部特征融合,现在我们关注于长范围的关系。
提出的方法:CANet,包含encoder,co-attention,decoder三个模块,encoder提取深度,RGB和纹理特征,co-attention解决RGB和depth数据差异问题,并且有效的融合RGB和depth。decoder进行上采样。
co-attention模块:
总体模型框架:
上下两层是提取RGB和depth特征,中间层是融合提取的特征,在decoder采用上采样的残差网络生成分割图。
PCFM模块,捕捉RGB和depth任意两C个空间位置的空间依赖。就是图片中每一个像素的值是这个值与其他位置所有值的一个加权和。
color使用空间Q,depth使用空间K,V将depth特征转换到空间特征,然后与color进行融合。将C,D进行reshape后相乘,得到一个相似度map,经过softmax后再与E相乘。最后再与原始的color进行逐像素相加。
S表示不同特征图的i,j之间的关系,由公式1可以看出,当计算每一个i,j都要计算N次,即color的每一个像素都是depth所有像素不同权重的加权和。因此融合的特征图F2,对于深度特征图有一个global view。
CCFM模块:
用来逐步融合通道特征图。将color和depth展开进行相乘,生成相似度map。
同理,j表示color的通道,i表示depth通道,x表示深度的每一个通道是color所有通道不同权重的加权和。最后再与原始color相加。
融合的特征图F2,对于深度特征图有一个global view。
由上图我们可以看到,生成的map都是与depth相乘,即突出depth中的某些像素,最后与color相加。即如何更好地融合深度图。
FFM模块:
将上述三个模块进行逐像素相加,获得最终特征图。
实验:
数据集:在NYUDv2和SUN RGB-D
可视化处理: