Fully Convolutional Instance-aware Semantic Segmentation

发现一个对FCIS结构解释很清楚的博客,分享出来。

https://blog.csdn.net/jiongnima/article/details/78961147

翻译的前面就省略了。

2.2

这个方法有很多令人满意的特性。所有的每一个感兴趣区域的部分都没有自由的参数。一个单独的FCN输出了score maps,没有涉及到任何特征的变样,重构尺寸与全连接层。所有的特征和score maps 都遵循原始的图片纵横比。保留了FCN的局部权值共享的属性,充当一个正则化机器。所有的每一个感兴趣区域的计算很简单(k*k的细胞分裂,复制score map,softmax,max,平均池化)与快速,每一个感兴趣区域的计算耗费是微不足道的。

2.3

  图3是端到端的结构。任何一个卷积网络都可以被使用,我们这个工作中用的是ResNet。用于1000分类最后一层全连接网络被丢弃。仅仅是前面的卷积层被重新训练。结果特征图有2048个通道。在他的上面。一个1*1的卷积层被增加来降低维数到1024。

  在原始的ResNet网络中,有效的特征步幅(降低了特征图的分辨率)在网络的顶部是32层。这样在instance-aware语义分割中太粗糙。为了减少特征的步幅并且保留观察的区域,采用了hole algorithm算法。在第五个卷积层的第一个块的步幅从2减少到1。因此有效的特征步幅减少到16。为了保留观察的区域,hole 算法被应用在conv5的所有的卷积层通过设置扩张为2。

  我们使用区域生成算法来产生感兴趣区域。为了与MNC方法进行公平的比较,在conv4层上也使用了同样的方法。注意RPN是全卷积。

  conv5特征图是使用了1*1的卷积层产生了()个score maps(C是目标的种类数,1是背景,每一个类别有k*kscore maps,实验中k是默认为7)。在score maps上,每一个感兴趣的区域被投影成一个16分之一更小的区域。分割的可能性图和在所有类别上的分类的分数的计算在2.2部分被描述。

  目标检测系统,边框回归被使用来重新定义输入的感兴趣区域。一个1*1的卷积层有4×k×k个通道被增加到conv5的特征图上来估计边框在定位和尺寸的变换。

  讨论推理与训练的更多细节。

推理:输入一个图,RPN中产生了300个最高分的感兴趣区域。他们通过边框回归的分支,产生了另外300个感兴趣的区域。对于每一个感兴趣区域,我们获得了它的分类分数和对于所有类别的可能性。图2是一个例子。非极大值抑制的交并比的阈值是0.3被使用来过滤出高的重叠部分的感兴趣区域。保留的感兴趣区域有最高的分类分数被分类成各个类别。他们的前景是通过投票获得。对于一个要考虑的感兴趣区域,我们发现所有的感兴趣区域的iou值都高于0.5。他们的前景分类的类别都是在每一个像素的基础上被平均,权重是关于他们分类的分数。然后平均的mask被二值化输出。

训练:一个感兴趣的区域是正样本,如果框的IOU关于最近的GT目标超过0.5,否则就是负样本。每一个感兴趣的区域都有三个有损失的时期,一个softmax检测在c+1种类上,一个softmax分割损失在前景的mask上,还有一个边框回归损失。最后两个损失都是在正样本的感兴趣的区域上有用。

  在训练阶段,模型被初始化于在imagenet分类的预训练模型。预训练的模型被随机初始化。训练的图片被调整大小为600个像素。使用SGD优化。用8个GPU,每一个都保留一个图片的小块,这样有效的batch size 就增大了8倍。实验数据为PASCAL VOC ,30的迭代,学习率是()。在COCO数据集上迭代次数乘以8。

  每一个感兴趣的区域的计算是可以忽略的.我们还应用了OHEM算法。在每一个mini batch中, 前向传播应用在所有的300个提出的感兴趣的区域上。在他们当中,128个有着高损失的感兴趣区域被选择后向传播他们的误差梯度。

  对于RPN,默认9个anchors。3个额外的anchors在一个微调的规模上在COCO的数据集实验室使用。为了实现在FCIS和RPN的特征共享,使用连接训练。

3相关的工作

图像语义分割:这个任务就是给每一个像素分配一个语义的种类标签。它不会区分目标实例。目前,这个领域主要是给予FCN的方法。FCN延伸为全局的上下文,大规模的特征融合,还有下采样。目前的工作将FCN与CRF整合在一起。

目标分割proposal:任务是生成不知道种类的目标分割。传统的方法,如MCG和selective search,使用低层次的图像特征。目前,这个任务被深度学习方法实现,比如deepmask和shapemask。目前全卷积网络也被提出来,这个鼓舞了本文的工作。

instance-aware语义分割:这个任务需要分类和对目标实例的分割。两个子任务被分别完成。通常,分割任务依赖于分割的proposal方法,分类任务是建立在基于区域的方法上。这样的范例包括SDS,Hypercolumn,CFM,MNC,MuLTIPathNet和迭代的方法。这些方法都有缺点:在1和2.2被讨论了。本文的工作,我们提出了一个全卷积方法是整合两个子任务。

  这里有很多尝试在FCN的基础上做instance-aware语义分割,通过将FCN的输出聚类。然而,这些方法都依赖于复杂的手工的处理过程,也不是端到端的。表现不尽人意。

FCN应用与目标检测:“位置灵敏的分数图”在R-FCN中被应用,一个全卷积方法应用于目标检测。这个分数图被重新定义,从前景背景分割的可能性到目标种类的可能性。R-FCN完成目标分类。不是实例分割任务。能与FCN连接在一起做instance-aware语义分割任务,以一种直接的方式。这个在4.1部分被研究。

4.实验

4.1在PASCAL VOC上

对比实验被执行在提出的FCIS方法上。伴随着【】的规则,协议,模型训练在VOC 2012的训练数据集上,评估是在验证集上,还有额外的annotation 来自于14。准确率被评估通过MAP,mAP,在mask水平上的交并集阈值为0.5和0.7。

提出的FCIS方法与可替代的全卷积基本方法进行比较,就跟FCIS有不同设计选择的变体一样。为了比较公平,inagenet预训练的resnet-101模型应用于所有的方法,OHEM没有应用。

NNIVE MNC:   这个与MNC类似除了所有的resnet的卷积层被应用在整张图上去获得特征图,后面是感兴趣区域的池化在conv5层的最后一个块。一个784全连接层应用在感兴趣区域池化特征为了mask的预测,一起的有21个全连接层用于分类。这个方法也应用于公平的比较。在每个感兴趣区域的计算中,几乎是全卷积,只有一个单独的全连接层子网络。

instanceFCN+R-FCN: 不知道类别的mask paoposal被instance-FCN生成,然后被R-FCN分类。这是对instanceFCN与R-FCN最直接的连接。两个FCN分开训练然后应用与mask的预测和分类。

FCIS(转换不变性):为了证实在位置灵敏分数图中提到的转换不变性的属性的重要性,在FCIS中设置k=1,实现转换不变性。

FCIS(分离分数图):为了验证mask预测和分类的连接公式,基本方法使用了在两个子任务中两个分开的分数图。第一个集合的分数图是应用于分割,与5的方法相同。第二个集合只用于分类,与R-FCN的方法相同。因此,前面的卷积分类器为了两个分数图的集合也不相关,浅层的卷积特征图任然被共享。

表1的结果。naive MNC的mAP低于原始的MNC,保持在resnet-101的10层。这个验证了在instance-aware语义分割中的转换不变性的重要性。

insanceFCN+R-FCN的结果很好,但是比FCIS差。推理的速度很慢。

提出的FCIS方法实现了最好的结果。证明了端到端的有效性。衰退的版本很差,表明位置灵敏分数图的参数化是至关重要的。衰退的。。版本也很差,表明连接的公式很有用。

4.2在COCO数据集上的实验

跟随着25这个基础的实验,训练执行在80K+40K的训练图上,然后结果在测试集上呈现。我们应用COCO评估矩阵来评估表现。

与MNC的比较:用MNC与提出的FCIS做比较,MNC是在2015年的COCO分割比赛中获得第一名。两个方法执行mask的预测和分类在感兴趣的区域上,然后共享相同的程序。为了公平地进行比较,我们保持他们公共的增加的细节一致。

表2显示了使用resnet-101模型的结果。当OHEM没有被使用,FCIS绝对高于MNC。通过对数据集的标准分割目标尺寸,精确度的提升对于大目标很重要,表明FCIS能捕捉到细节的空间信息。FCIS也比MNC快。在推理阶段,FCIS在每张图上花费0.24秒,比MNC几乎快6倍。另外,FCIS收益于OHEM因为很少的感兴趣区域的消耗,实现了mAP。同时,OHEM在MNC上也不支持,因为相当大的计算会被增加在训练中。

不同深度的网络:表3呈现的是使用resnet的不同深度在FCIS的方法中。深度从50提升到101精度也被提升,当到达152层的时候就达到饱和了。

COCO分割挑战:基于FCIS的方法,赢得了第一名。表4呈现的是我们的结果和其他参加者的结果。我们的方法是基于FCIS,还有一些简单的修饰。

FCIS baseline:FCIS赢了2015年的比赛

多尺度测试:与17,18类似,位置灵敏分数图在测试图的金字塔上被计算,有很短的边(481,576,..)。对于每一个感兴趣区域我们获得了结果,感兴趣的区域接近于224*224。注意,RPN proposal 也在单尺度中被计算处理,多尺度的测试提高了精确度。

水平翻转:与42相似,FCIS方法被应用在原始的和被翻转过的图片上,结果取平均。增加了精确度。

多尺度训练:在多尺度的推理中我们应用了多尺度的训练在相同的尺度上。对于一个微调的尺度,一个随机的图片块从训练中复制由于内存原因。增加了精度。

集成:18中,候选区域用集成方法产生,区域的并集被处理是通过mask预测和分类的集成。我们使用6个网络的集成。最后的结果是高于G-RMI。

COCO检测:提出的FCIS方法在框水平上的目标检测表现很好。通过采用封闭的对实例mask的框,实现了精度。

5.总结

我们提出了第一个全卷积网络应用于instance-aware语义分割。它延伸了已有的FCN方法,在这个任务上也往前推动了精度和有效性。这么好的表现是得益于高度一体化和有效的网络结构,特别是一个新的连接公式。

 

 

 

 

 

 

 

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值