Transformer Fusion for Indoor RGB-D Semantic Segmentation

如何聚合多尺度特征这是一个问题,现有的方法大多通过卷积来实现,而很少在特征融合的地方使用长距离依赖,因此对于大物体的分割就会有挑战。本文提出基于transformer的融合策略,来更好的建模上下文。
TransD-Fusion包含①:一个自完善,②:交叉矫正和③:深度引导融合,还有一个④语义位置编码来将注意力限制到相邻的像素。
当前模型融合有三个挑战,分别为多模态融合,每个模态含噪声,特征对齐。
在这里插入图片描述
现在大多的融合方法还是逐像素融合,限制了情景化的线索(上下文信息),导致结果遇到了瓶颈。
transformer通过Q和K之间的关系建模全局的注意力,我们可以将内在的q和k之间的关系,延伸到跨模态的关系。(说明:平时的transformer通过对patch embedding进行三个线性投射形成的,操作的对象是token,即一个token序列形成了三个qkv,而跨模态的qkv则是qk或者v其中一个来自于其他的模态进行注意力计算)。因此这是一个很自然的方法去聚合RGB-D特征。

通过利用上下文信息(transformer获得的),我们就可以处理表面比较形似的物体而深度值是不同的。

①通过transformer注意力实现的,②为了通过互补信息来完善每个模态。③为了有效的分割物体。④产生category-aware的位置编码。

模型框架:
在这里插入图片描述
包含主分支和附属分支这种双流encoder,首先Depth转换为HHA,然后和RGB进行concat,接着分别送入swin transformer中。
在这里插入图片描述
将产生的结果图经过卷积来减少维度,然后新的特征图进一步进行展平。输入到transformer fusion中。
在这里插入图片描述
三步:自注意力,通过交叉注意力进行双向矫正,深度引导的query进行分割。
首先看第一步:
在这里插入图片描述
多头自注意力,和普通的transfor一样的。
在这里插入图片描述
各个分支进行多头自注意力,然后与本身相加。Px是位置编码。
在这里插入图片描述
第二步:交叉完善
在这里插入图片描述
为了消除单模态的模糊,区别于之间的双注意力,作者提出的基于transformer的交叉完善。
RGB分支的Q来自深度分支,因此他自带深度的位置编码,k和v来自自身,带RGB的位置编码。
在这里插入图片描述
第三步:深度引导的融合
深度产生的结果作为query来进行跨模态的注意力。
在这里插入图片描述
用公式表示为:
在这里插入图片描述
语义位置编码:
从低层次即分辨率的特征图来充分应用空间分辨率。
具体操作:将两个序列reshpe为图片,然后通过卷积投射到高维,然后再通过两个3x3卷积增加序列的局部信息。和CPVT有些类似和CVT也有些类似,即将卷积引入到位置编码中。
在这里插入图片描述
实验:SOTA
在这里插入图片描述
可视化:
在这里插入图片描述
消融实验:自行分析

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值