Three-Stream Attention-Aware Network for RGB-D Salient Object Detection

总体框架

三个流的主干网络采用VGG16,去除全连接层,保留5个卷积块。作者添加了一个具有 15×15 的新卷积层,用于全局上下文推理,作为第 6 个卷积块。提出的rgb-d SOD系统包含三个自下而上的流,即RGB特定流,深度特定流和交叉模态的蒸馏流,分别在每个级别中提取模态特定的和新的rgb-d表示。对于特定于深度的流,我们将单通道深度图编码为 3 通道 HHA 表示(即水平视差、离地高度以及局部表面法线与推断的重力方向的角度)为 输入。HHA 编码比原始深度图携带更多几何线索(例如,表面法线和高度),并允许由训练好的 VGG 模型初始化深度流。推理阶段由自上而下的注意力感知融合路径强制执行,在该路径中,自适应地选择和组合跨模态跨层次的补充,以进行联合多模态多层次预测。整个网络可以以端到端的方式进行训练。

Bottom-Up Cross-Modal Distillation Stream

跨模态蒸馏流的结构与其他两个流相似,同时它切断了第一个卷积块,并在两个相邻块之间添加了一个过渡层(用1×1滤波器参数化)。 分别表示从 RGB 特定流、深度特定流和跨模态蒸馏流中学习到的第 m 级特征。这些特征将由过渡层连接和选择,其中尺寸被校准(例如,在输入第3卷积块之前,从128×3通道减少到128通道)。因此,后续卷积块中的参数可以很容易地由 VGG-16 网络中的对应部分初始化。所得到的多模态表示将被输入到下一个卷积块中,以提取新的RGB-D特征。随着自底向上的过程的进行,跨模态蒸馏流能够在每个级别上探索新的表示,以补充从rgb特定流和深度特定流中学到的特征。

Top-Down Attention-Aware Cross-Modal Cross-Level Inference Path

自上而下的路径负责通过逐渐跨层次的组合进行层次推理和渐进增强。第m级中的多模态特征结合了三个自下而向上流的线索,有望有助于特定级别的推理。为此,需要从每个一级的最后一个卷积层(例如,conv2_2和conv3_3)生成侧输出。然而,由于缺乏全局上下文信息,浅层很难准确地推理显著性,这在显著性对象的定位中起着至关重要的作用。为了解决这个问题,我们建议依次选择和传输上下文从高层到较浅的上下文。传输的高级特征将指导选择所需的低级特征进行优化。跨级别组合由 (Att-CMCL) 块处理,其中来自不同模式/级别的所有特征图将按通道重新校准。因此,有用的特征图将被突出显示,而较差的特征图将被丢弃。

 

如图(b)所示,多模态特征FmMM之后是两层自适应层,引入从自底而上的主干到自顶向下路径的深层特征,以推断层次特定的显著性。自适应层由一个或两个卷积层来实现。在深层次(5-6层),我们使用一个512,1×1卷积层来适应。对于较浅的层(第 1 -4 层),我们采用两个具有较大卷积核(即 3 × 3)的自适应层来扩大浅层的感受野以获得更好的推理。第1−第4层的适应层特征数继承了主干流中的特征数,减少到512-256-128-64。通过这种方式,自适应层充当了一个过渡块,以避免主干和侧输出之间的优化冲突。与以前模糊地组合来自不同模态或级别的特征图的策略不同,我们引入了通道注意机制来消除跨模态跨层次互补性的歧义,并鼓励更多信息的多模态多层次组合。从相邻更深的 Att-CMCL 块输出的特征 F~m+1 MM 将通过反卷积层进行上采样以校准分辨率。然后将上采样的特征图与适应良好的  连接起来,作为跨模态的跨级表示 ,将其馈送到通道注意模块以加权每个通道的贡献并选择最有益的通道。

如图 (c) 所示,注意力模块包含一个全局池化层,用于抽象全局空间信息并生成逐通道统计信息。

其中 W 和 H 是 的宽度和高度。然后附加一个由 Wf ∈ RC×C 参数化的全连接层来估计不同特征图的依赖关系,并添加一个 sigmoid 函数 σ 来加权每个渠道的重要性:

通道权重θ用作特征重新校准的比例因子:

重新加权的特征之后是一个1×1的卷积层,以选择最具区别性的跨模态跨层次表示。这些被选择的特征将被用来推断显著性,同时传递到相邻的较浅的层。从第6层到第2层,每层为跨层融合所选择的特征图数量分别为512-512-384-256-128。显著性值由单通道1×1卷积层推理,侧输出表示为Rm。除了将更深层次的全局上下文特征传输到更浅层次之外,这项工作中的另一个跨层次融合策略是结合来自相邻更深层次的侧输出。受侯等人的启发。受Hou等人[6]的启发,来自两个相邻水平Rm和R˜m+1的显著性地图将通过固定的去卷积层向上采样到相同的分辨率(即112×112),并结合一个1×1的卷积层作为综合结果R˜m。这两种跨级别融合方法共同起作用,以鼓励期望的协作跨级组合并逐步增强显着性图。第m级的侧损失可以表示为:

 wm和˜wm+1分别表示Rm和R˜m+1的权值,它们与网络一起自适应学习。d是预测的显著性映射R˜m和二值地面真实掩模y之间的交叉熵损失。为了进一步鼓励不同层次的协作,我们还添加了一个涉及所有边输出的组合损失:

总损失

我控制着lm的重要性。我们直接设置了am=1,没有进一步的调优。

主要是针对单目标的

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值