Hybrid Task Cascade论文笔记

最新推荐文章于 2024-12-13 22:28:58 发布

lingboboo

最新推荐文章于 2024-12-13 22:28:58 发布

阅读量1k

点赞数

分类专栏：计设文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/bigdataZLB/article/details/120382243

版权

计设专栏收录该内容

5 篇文章

订阅专栏

文章目录

Hybrid Task Cascade综述

在这里插入图片描述
1.它将bbox回归和mask预测交叉，而不是并行执行它们
2.它通过将前一阶段的mask特征反馈到当前阶段，采用了一条直接路径来加强mask分支之间的信息流。
3.它旨在通过添加一个额外的语义分割分支，并将其与box和mask分支融合，来探索更多的上下文信息。
在这里插入图片描述

1.Cascade Mask R-CNN

如图a，将Mask R-CNN中的mask分支加到了 Cascade R-CNN的每个阶段
pipeline如下
在这里插入图片描述

2.Interleaved Execution交叉执行

1中设计的一个缺点是，在训练期间，每个阶段的两个分支都是并行执行的，都将前一阶段的边界框预测作为输入。因此，这两个分支在一个阶段内并不直接相互作用。
因此设计了如图b的流程

pipeline:
在这里插入图片描述
与1中的区别在于输入到mask分支的box预测是当前阶段，而不是上一阶段的

3.Mask Information Flow

在2中的设计中，每个阶段的mask预测纯粹基于ROI特征x和box预测 $r_t$ 。不同阶段的mask分支之间没有直接的信息流，这阻碍了mask预测精度的进一步提高。
为了更好地设计mask信息流，我们首先回顾Cascade中的级联box分支的设计,一个重要的点是box分支的输入特征是由前一阶段和主干的输出共同决定的。按照类似的原则，我们通过将前一阶段的mask特性馈送到当前阶段，在mask分支之间引入信息流，如图c所示。
pipeline:
在这里插入图片描述

4.Spatial Contexts from Segmentation

为了进一步区分前景和杂乱的背景，我们使用空间上下文作为一个有效的线索。我们增加了一个分支对整个图像进行逐像素语义分割预测，该分支采用全卷积的结构，并与其他分支联合训练，如图d所示。
具体来说，语义分割分支S根据特征金字塔的输出构造
在这里插入图片描述
图3显示了这个分支的体系结构。特征金字塔的每一层首先通过1 × 1卷积层对齐到一个共同的表示空间。然后上采样低层特征图，下采样高层特征图到相同的空间尺度，步幅设为8。我们从经验上发现，这个设置足以对整个图像进行精细的像素级预测。
此外，我们在其上增加了四个卷积层以进一步弥合semantic gap.最后，我们简单地采用卷积层来预测像素分割地图。总的来说，我们尽量保持语义分割分支的设计简单和直接。虽然一个更精细的结构可以进一步提高性能，但它超出了我们的范围，我们留给未来的工作。

Fusing Contexts Feature into Main Framework

众所周知，对密切相关的任务进行联合训练可以改善特征表示，给原始任务带来性能增益。在这里，我们提出将语义特征与box/mask特征融合，以允许不同分支之间更多的交互。通过这种方式，语义分支可以直接帮助预测带有编码空间上下文的box和mask。按照标准做法，给定一个RoI，我们使用RoI Align从相应的特征金字塔输出级别提取一个小的(例如，7 × 7或14 × 14)特征patch作为表征.