BCNet 阅读笔记
Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers(CVPR 2021)
- 文章的 Related Work 可以当一篇综述,有很多关于 Occlusion Handling 的论文,可以参考
- Amodal Instance Segmentation:模态实例分割。传统实例分割只能 focus 可见区域,但是模态实例分割可以预测被遮挡的部分
摘要
- 动机:高度重叠目标难以进行实例分割
- 方法:
- 将图像建模(解耦)为两个重叠层,并提出双层卷积网络(BCNet),其中顶部的GCN层检测遮挡物体(遮挡者),底部的GCN层推断被部分遮挡的物体(被遮挡者)
- BCNet 在模态和非模态设置中使用不同的backbone和对象检测器在整体分割性能上实现了一致的收益
引言
- 原理图
- BCNet 在 ROI 提取后同时回归 遮挡者 和 被遮挡者,使用两个不同的层将它们的像素进行分组,将目标的边界进行解耦,最后在mask 回归阶段将两者进行 interaction
- BCNet 在 ROI 提取后同时回归 遮挡者 和 被遮挡者,使用两个不同的层将它们的像素进行分组,将目标的边界进行解耦,最后在mask 回归阶段将两者进行 interaction
- 传统方法的局限
- 传统方法通过 NMS 或 后处理 来解决相邻物体之间的掩码冲突,因此,它们的结果是 沿边界过度平滑 或 相邻物体的差别很小
- ROI 中的感受野可以观察到属于同一类别的多个物体,因此当 遮挡者 的一部分被判定在 被遮挡者 中时,传统的 mask head 不能解决这种问题,导致误差
- BCNet 对比其他 mask head 的结构
Occlusion-Aware Instance Segmentation(遮挡感知实例分割)
- 网络结构图
-
GCN 相关
- 给定邻接图 g = < V , E > \mathcal g=<\mathcal V, \mathcal E> g=<V,E>,图卷积操作定义如下:
Z = σ ( A X W g ) + X \bold Z=\sigma (\bold A \bold X \bold W_g)+\bold X Z=σ(AXWg)+X
其中 X ∈ R N × K \bold X\in R^{N×K} X∈RN×K 是输入特征, N = H × W N=H×W N=H×W 是 ROI 区域中的像素数量, K K K 是每一个 node(每个像素就是一个 node)的特征维度, A ∈ R N × N \bold A\in R^{N×N} A∈RN×N
- 给定邻接图 g = < V , E > \mathcal g=<\mathcal V, \mathcal E> g=<V,E>,图卷积操作定义如下: