CANet：RGB-D Co-attention Network for SemanticSegmentation

最新推荐文章于 2024-03-21 16:15:50 发布

翰墨大人

最新推荐文章于 2024-03-21 16:15:50 发布

阅读量865

点赞数 3

分类专栏： paper总结文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43733107/article/details/126413192

版权

paper总结专栏收录该内容

41 篇文章

订阅专栏

背景：就是为了解决RGB与Depth融合问题，之前的方法主要关注与局部特征融合，现在我们关注于长范围的关系。

提出的方法：CANet，包含encoder，co-attention，decoder三个模块，encoder提取深度，RGB和纹理特征，co-attention解决RGB和depth数据差异问题，并且有效的融合RGB和depth。decoder进行上采样。

co-attention模块：

总体模型框架：

上下两层是提取RGB和depth特征，中间层是融合提取的特征，在decoder采用上采样的残差网络生成分割图。

PCFM模块，捕捉RGB和depth任意两C个空间位置的空间依赖。就是图片中每一个像素的值是这个值与其他位置所有值的一个加权和。

color使用空间Q，depth使用空间K,V将depth特征转换到空间特征，然后与color进行融合。将C,D进行reshape后相乘，得到一个相似度map，经过softmax后再与E相乘。最后再与原始的color进行逐像素相加。

S表示不同特征图的i,j之间的关系，由公式1可以看出，当计算每一个i，j都要计算N次，即color的每一个像素都是depth所有像素不同权重的加权和。因此融合的特征图F2，对于深度特征图有一个global view。

CCFM模块：

用来逐步融合通道特征图。将color和depth展开进行相乘，生成相似度map。

同理，j表示color的通道，i表示depth通道，x表示深度的每一个通道是color所有通道不同权重的加权和。最后再与原始color相加。

融合的特征图F2，对于深度特征图有一个global view。

由上图我们可以看到，生成的map都是与depth相乘，即突出depth中的某些像素，最后与color相加。即如何更好地融合深度图。

FFM模块：

将上述三个模块进行逐像素相加，获得最终特征图。

实验：

数据集：在NYUDv2和SUN RGB-D

可视化处理：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。