图像分割“Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade”

最新推荐文章于 2023-02-01 16:48:04 发布

cv_family_z

最新推荐文章于 2023-02-01 16:48:04 发布

阅读量2.2k

点赞数 2

分类专栏：图像分割深度学习

本文链接：https://blog.csdn.net/cv_family_z/article/details/72625048

版权

深度学习同时被 2 个专栏收录

105 篇文章 0 订阅

订阅专栏

图像分割

14 篇文章 2 订阅

订阅专栏

提出层级联（LC）提升语义分割的准确率和速度，将深度模型改为几个子模型的级联，初级子模型处理容易或置信度较高的区域，之后将较难的区域前向传播到下一级自模型处理。卷积仅在特定区域上计算，降低了计算量。

优点：
1. 浅层处理较易区域，深层处理较难区域，自适应学习提升性能；
2. LC的训练和测试时间都有提升；
3. 端到端的训练结构，所有子模型联合训练。

与V&J级联思路不同，层级联拒绝置信度较高的样本，低置信度的将本前向传播，层级联策略如下图所示：
这里写图片描述

上图中，所有像素分为三个级别，较易ES，中等MS和较难HS。较易的像素对应第一级正确分类置信度高于95%的子集，较难的样本对应误分类置信度高于95%的子集。中等样本置信度低于95%。

策略：第一步将ES和HS识别出，将MS传播到第二级。上
原因：
1. 上图显示70%的HS像素在物体的边界处，易混淆。对HS进行训练，易造成过拟合。
2. 30%像素属于ES，去除ES和HS,减少了约40%的像素，降低计算量。

层级联

参考网络结构
参考网络Inception-Resnet-v2,即IRNet,下图是IRNet的结构，包括6个组成部分，即，Stem, IRNet-A/B/C,Reduction-A/B。

将分类网络用于分割，先做两个更改，一是去除池化层及降低Reduction-A\B卷积步长提高分辨率，二是固定BN层的参数提高其稳定性。
IRNet转为IRNet-LC
通过将不同的组件划分到不同的级联阶段实现，级联3层结构，Reduction-A之前的组件划分到第一阶段，Reduction-A与-B之间的第二阶段，其余第三阶段。如下图所示：

此外在每阶段两个卷积层和一个softmax层。这样每个阶段都有自己的损失函数。上图中，第一阶段识别出大部分的背景像素，将其余区域前传，这些区域此时的标记未知，第二阶段仅处理传过来的区域，第三阶段重复这个过程。图3b显示了区域卷积与全图卷积的区别，图3c是在残差模型上进行区域卷积，特征通过等值映射和卷积得到。

第一阶段，给定3*515*512的图像I，输出21*64*64的分割标记图，每个21*1的向量表示对应像素属于21类物体的概率。若某像素最大得分超过阈值 $\rho$ ，接受对该像素的预测，不再将其传播到下一层。 $\rho$ 通常大于0.95。
第二阶段决定哪些像素输送到第三阶段，网络仅引入了一个超参数 $\rho$ ， $\rho$ 决定了每步像素被拒绝的程度。 $\rho=1.0$ 时，没有像素被拒绝，当 $\rho$ 变小时，更多的像素在第一阶段就被决定归属了，没有提取到深层信息，影响性能。当 $\rho=0.985$ 时，相对于IRNet，性能提升1.7%，速度达到15fps。
网络训练
IRNet使用ImageNet预训练，LC增加了两卷积层的参数使用正态分布随机初始化，训练有两步：初始训练，级联训练。初始训练中最小化像素级softmax损失函数，级联训练对上一步置信度低的像素微调。

实验结果
CitySpaces每层分割可视化结果:
这里写图片描述

VOC2012上与其他方法性能和时间对比：
这里写图片描述

cv_family_z

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
图像分割“Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade”

提出层级联（LC）提升语义分割的准确率和速度，将深度模型改为几个子模型的级联，初级子模型处理容易或置信度较高的区域，之后将较难的区域前向传播到下一级自模型处理。卷积仅在特定区域上计算，降低了计算量。优点： 1. 浅层处理较易区域，深层处理较难区域，自适应学习提升性能； 2. LC的训练和测试时间都有提升； 3. 端到端的训练结构，所有子模型联合训练。与V&J级联思路不同，层级联拒绝置信度较
复制链接

扫一扫