[深度学习从入门到女装]RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentatio

最新推荐文章于 2025-03-14 08:57:43 发布

炼丹师

最新推荐文章于 2025-03-14 08:57:43 发布

阅读量1.7k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/py184473894/article/details/103613231

版权

深度学习专栏收录该内容

126 篇文章

订阅专栏

论文地址：RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation

一篇挺有意思的论文，这篇论文将目标检测和实例分割做成项目促进的方法来提高他们的精准度

在普通的instance segmentation的网络中，目标检测和instance segmentation是分开的，或者说，一方是依赖于另一方的，无法达到两个领域相互促进相互改进的情况

整个网络的结构图上图所示，backbone还是FPN，然后两个head和其他instance分割的head也都差不多，对于object stream，也就是proposal的head来说，增加了一个representations，用于和pixel stream得到的结果进行交互，pixel stream得到整个图的每个像素的representation，其实都是相当于是embedding，和EmbedMask: Embedding Coupling for One-stage Instance Segmentation非常相似

From Instance-agnostic to Instance-aware
这点是讲目标检测结果促进实例分割结果，分为两个步骤

instance-agnostic to instance-aware

整个图的分割结果通过得到

其中U为pixel的representation，维度为1*d*h*w，d就是每个pixel的embedding维度

v为object的representation，维度为2*d*1*1，d就是每个object的embedding维度

通过对两个进行卷积后使用softmax，得到最后的instance分割结果

From Translation-invariant to Translation-variant.
文章中指出，由于卷积的平移不变性，两个相似的像素会产生相似的representation，因此会对最终的分割图像产生噪点，在原始two-stage instance分割网络中，因为是使用ROI pooling之后，使得分割的区域变小了，因此不会有区域外的噪点产生，但对于这种one-stage的方法是对整个图像进行分割的，就容易在ROI区域之外产生噪点。

本文通过最简单的方法，通过目标检测结果得到的RoI区域进行crop