SOLO:Segmenting Objects by Locations

在这里插入图片描述在这里插入图片描述

SOLO

SOLO的中心思想是把instance segmentation的问题分解为两个相似的分类问题,分别是category-aware预测和instance-aware mask的生成
把输入图片分成SxS个格子,如果一个物体的中心落入到了一个格子中,那么这个格子就负责两件事情,
1)预测semantic category
2)生成instance mask。

———————————————————————————————————————————————
Semantic Category
每个grid有C个维度,用来预测C个类别中每个类别的可能性。如果划分SxS个格子,那么输出是SxSxC,这种设计是基于每个grid都属于不同实例的假设,因此也必然只属于一个semantic category。
Instance Mask
每个正例的grid还要生成对应的instance mask。如果一张图片分成SxS个格子,那么最多预测S的平方个mask。所以mask层的输出是 ,如果k=i*S+j,那么第k个channel的map会负责(i,j)位置的grid。从而将semantic category与instance mask一一对应起来了。
Inference
通过mask与grid的对应,很容易得到每个mask的类别信息,最后通过NMS整合出最后的输出结果。
在这里插入图片描述

CoordConv

FCN全卷积网络对位置信息不敏感,这样对分类问题有利,但是对于定位问题位置信息比较重要。另外SOLO的每个mask需要与grid cell对应,因此也需要对位置敏感。作者的解决方案是引入了CoordConv方法。
在这里插入图片描述在这里插入图片描述

———————————————————————————————————————————————在这里插入图片描述在这里插入图片描述在这里插入图片描述
SOLO作为无需后处理,无需anchor的one-stage的网络,相比需要聚类的one-stage网络和two-stage的网络也有不差的精度。
———————————————————————————————————————————————

消融实验1

在这里插入图片描述
如果只有一个feature map作为输出,并且grid number为12,24,36的结果。Pyramid表示FPN的结构。可见FPN的结构非常有用,FPN的结构见table 3.在这里插入图片描述在这里插入图片描述在这里插入图片描述

消融实验2

在这里插入图片描述在这里插入图片描述
FPN后feature的尺寸使用Align的方式对齐到SxS,Align的方式做了对比试验发现无论是线性插值还是adaptive pool或者基于grid的线性插值,效果都差不多。

小尺寸SOLO

在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值