Fully Convolutional Instance-aware Semantic Segmentation

最新推荐文章于 2020-09-08 22:37:40 发布

Hlj147

最新推荐文章于 2020-09-08 22:37:40 发布

阅读量438

点赞数 1

本文链接：https://blog.csdn.net/Hlj147/article/details/84789658

版权

发现一个对FCIS结构解释很清楚的博客，分享出来。

https://blog.csdn.net/jiongnima/article/details/78961147

翻译的前面就省略了。

2.2

这个方法有很多令人满意的特性。所有的每一个感兴趣区域的部分都没有自由的参数。一个单独的FCN输出了score maps,没有涉及到任何特征的变样，重构尺寸与全连接层。所有的特征和score maps 都遵循原始的图片纵横比。保留了FCN的局部权值共享的属性，充当一个正则化机器。所有的每一个感兴趣区域的计算很简单(k*k的细胞分裂，复制score map,softmax,max,平均池化)与快速,每一个感兴趣区域的计算耗费是微不足道的。

2.3

　　图３是端到端的结构。任何一个卷积网络都可以被使用，我们这个工作中用的是ResNet。用于1000分类最后一层全连接网络被丢弃。仅仅是前面的卷积层被重新训练。结果特征图有2048个通道。在他的上面。一个１＊１的卷积层被增加来降低维数到1024。

　　在原始的ResNet网络中，有效的特征步幅（降低了特征图的分辨率）在网络的顶部是32层。这样在instance-aware语义分割中太粗糙。为了减少特征的步幅并且保留观察的区域，采用了hole algorithm算法。在第五个卷积层的第一个块的步幅从２减少到１。因此有效的特征步幅减少到１６。为了保留观察的区域，hole 算法被应用在conv5的所有的卷积层通过设置扩张为２。

　　我们使用区域生成算法来产生感兴趣区域。为了与MNC方法进行公平的比较，在conv4层上也使用了同样的方法。注意RPN是全卷积。

　　conv5特征图是使用了１＊１的卷积层产生了()个score maps（C是目标的种类数，１是背景，每一个类别有ｋ*ｋscore maps,实验中k是默认为７）。在score maps上，每一个感兴趣的区域被投影成一个１６分之一更小的区域。分割的可能性图和在所有类别上的分类的分数的计算在２.2部分被描述。

　　目标检测系统，边框回归被使用来重新定义输入的感兴趣区域。一个１＊１的卷积层有４×ｋ×ｋ个通道被增加到conv5的特征图上来估计边框在定位和尺寸的变换。

　　讨论推理与训练的更多细节。

推理：输入一个图，RPN中产生了300个最高分的感兴趣区域。他们通过边框回归的分支，产生了另外300个感兴趣的区域。对于每一个感兴趣区域，我们获得了它的分类分数和对于所有类别的可能性。图２是一个例子。非极大值抑制的交并比的阈值是0.3被使用来过滤出高的重叠部分的感兴趣区域。保留的感兴趣区域有最高的分类分数被分类成各个类别。他们的前景是通过投票获得。对于一个要考虑的感兴趣区域，我们发现所有的感兴趣区域的iou值都高于0.5。他们的前景分类的类别都是在每一个像素的基础上被平均，权重是关于他们分类的分数。然后平均的mask被二值化输出。

训练：一个感兴趣的区域是正样本，如果框的IOU关于最近的GT目标超过0.5，否则就是负样本。每一个感兴趣的区域都有三个有损失的时期，一个softmax检测在c+1种类上，一个softmax分割损失在前景的mask上，还有一个边框回归损失。最后两个损失都是在正样本的感兴趣的区域上有用。

　　在训练阶段，模型被初始化于在imagenet分类的预训练模型。预训练的模型被随机初始化。训练的图片被调整大小为600个像素。使用SGD优化。用８个GPU，每一个都保留一个图片的小块，这样有效的batch size 就增大了8倍。实验数据为PASCAL VOC ，30的迭代，学习率是（）。在COCO数据集上迭代次数乘以８。

　　每一个感兴趣的区域的计算是可以忽略的.我们还应用了OHEM算法。在每一个mini batch中，前向传播应用在所有的300个提出的感兴趣的区域上。在他们当中，128个有着高损失的感兴趣区域被选择后向传播他们的误差梯度。

　　对于RPN，默认9个anchors。３个额外的anchors在一个微调的规模上在ＣＯＣＯ的数据集实验室使用。为了实现在FCIS和RPN的特征共享，使用连接训练。

3相关的工作

图像语义分割：这个任务就是给每一个像素分配一个语义的种类标签。它不会区分目标实例。目前，这个领域主要是给予FCN的方法。FCN延伸为全局的上下文，大规模的特征融合，还有下采样。目前的工作将FCN与CRF整合在一起。

目标分割proposal:任务是生成不知道种类的目标分割。传统的方法，如MCG和selective search,使用低层次的图像特征。目前，这个任务被深度学习方法实现，比如deepmask和shapemask。目前全卷积网络也被提出来，这个鼓舞了本文的工作。

instance-aware语义分割：这个任务需要分类和对目标实例的分割。两个子任务被分别完成。通常，分割任务依赖于分割的proposal方法，分类任务是建立在基于区域的方法上。这样的范例包括SDS,Hypercolumn,CFM,MNC,MuLTIＰathNet和迭代的方法。这些方法都有缺点：在1和2.2被讨论了。本文的工作，我们提出了一个全卷积方法是整合两个子任务。

这里有很多尝试在FCN的基础上做instance-aware语义分割，通过将FCN的输出聚类。然而，这些方法都依赖于复杂的手工的处理过程，也不是端到端的。表现不尽人意。

FCN应用与目标检测：“位置灵敏的分数图”在Ｒ-FCN中被应用，一个全卷积方法应用于目标检测。这个分数图被重新定义，从前景背景分割的可能性到目标种类的可能性。R-FCN完成目标分类。不是实例分割任务。能与FCN连接在一起做instance-aware语义分割任务，以一种直接的方式。这个在4.1部分被研究。

４.实验

4.1在PASCAL VOC上

对比实验被执行在提出的FCIS方法上。伴随着【】的规则，协议，模型训练在VOC 2012的训练数据集上，评估是在验证集上，还有额外的annotation 来自于14。准确率被评估通过MAP,mAP,在mask水平上的交并集阈值为0.5和0.7。

提出的FCIS方法与可替代的全卷积基本方法进行比较，就跟FCIS有不同设计选择的变体一样。为了比较公平，inagenet预训练的resnet-101模型应用于所有的方法，OHEM没有应用。

NNIVE MNC: 这个与MNC类似除了所有的resnet的卷积层被应用在整张图上去获得特征图，后面是感兴趣区域的池化在conv5层的最后一个块。一个784全连接层应用在感兴趣区域池化特征为了mask的预测，一起的有21个全连接层用于分类。这个方法也应用于公平的比较。在每个感兴趣区域的计算中，几乎是全卷积，只有一个单独的全连接层子网络。

instanceFCN+R-FCN: 不知道类别的mask paoposal被instance-FCN生成，然后被R-FCN分类。这是对instanceFCN与R-FCN最直接的连接。两个FCN分开训练然后应用与mask的预测和分类。

FCIS（转换不变性）:为了证实在位置灵敏分数图中提到的转换不变性的属性的重要性，在FCIS中设置k=1,实现转换不变性。

FCIS(分离分数图)：为了验证mask预测和分类的连接公式，基本方法使用了在两个子任务中两个分开的分数图。第一个集合的分数图是应用于分割，与５的方法相同。第二个集合只用于分类，与R-FCN的方法相同。因此，前面的卷积分类器为了两个分数图的集合也不相关，浅层的卷积特征图任然被共享。

表１的结果。naive MNC的mＡP低于原始的MNC，保持在resnet-101的１０层。这个验证了在instance-aware语义分割中的转换不变性的重要性。

insanceFCN+R-FCN的结果很好，但是比FCIS差。推理的速度很慢。

提出的FCIS方法实现了最好的结果。证明了端到端的有效性。衰退的版本很差，表明位置灵敏分数图的参数化是至关重要的。衰退的。。版本也很差，表明连接的公式很有用。

4.2在COCO数据集上的实验

跟随着25这个基础的实验，训练执行在80K+40K的训练图上，然后结果在测试集上呈现。我们应用COCO评估矩阵来评估表现。

与MNC的比较：用MNC与提出的FCIS做比较，MNC是在2015年的COCO分割比赛中获得第一名。两个方法执行mask的预测和分类在感兴趣的区域上，然后共享相同的程序。为了公平地进行比较，我们保持他们公共的增加的细节一致。

表２显示了使用resnet-101模型的结果。当OHEM没有被使用，FCIS绝对高于MNC。通过对数据集的标准分割目标尺寸，精确度的提升对于大目标很重要，表明FCIS能捕捉到细节的空间信息。FCIS也比MNC快。在推理阶段，FCIS在每张图上花费0.24秒，比MNC几乎快６倍。另外，FCIS收益于OHEM因为很少的感兴趣区域的消耗，实现了mAP。同时，OHEM在ＭＮＣ上也不支持，因为相当大的计算会被增加在训练中。

不同深度的网络：表３呈现的是使用resnet的不同深度在FCIS的方法中。深度从50提升到101精度也被提升，当到达152层的时候就达到饱和了。

COCO分割挑战：基于FCIS的方法，赢得了第一名。表４呈现的是我们的结果和其他参加者的结果。我们的方法是基于FCIS，还有一些简单的修饰。

FCIS　baseline:FCIS赢了2015年的比赛

多尺度测试：与17,18类似，位置灵敏分数图在测试图的金字塔上被计算，有很短的边（481,576,..）。对于每一个感兴趣区域我们获得了结果，感兴趣的区域接近于224*224。注意，RPN　proposal 也在单尺度中被计算处理，多尺度的测试提高了精确度。

水平翻转：与42相似，FCIS方法被应用在原始的和被翻转过的图片上，结果取平均。增加了精确度。

多尺度训练：在多尺度的推理中我们应用了多尺度的训练在相同的尺度上。对于一个微调的尺度，一个随机的图片块从训练中复制由于内存原因。增加了精度。

集成：18中，候选区域用集成方法产生，区域的并集被处理是通过mask预测和分类的集成。我们使用6个网络的集成。最后的结果是高于G-RMI。

COCO检测：提出的FCIS方法在框水平上的目标检测表现很好。通过采用封闭的对实例mask的框，实现了精度。

５．总结

我们提出了第一个全卷积网络应用于instance-aware语义分割。它延伸了已有的FCN方法，在这个任务上也往前推动了精度和有效性。这么好的表现是得益于高度一体化和有效的网络结构，特别是一个新的连接公式。

Hlj147

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Fully Convolutional Instance-aware Semantic Segmentation

发现一个对FCIS结构解释很清楚的博客，分享出来。https://blog.csdn.net/jiongnima/article/details/78961147翻译的前面就省略了。2.2这个方法有很多令人满意的特性。所有的每一个感兴趣区域的部分都没有自由的参数。一个单独的FCN输出了score maps,没有涉及到任何特征的变样，重构尺寸与全连接层。所有的特征和score map...
复制链接

扫一扫