图像分割“Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade”

提出层级联(LC)提升语义分割的准确率和速度,将深度模型改为几个子模型的级联,初级子模型处理容易或置信度较高的区域,之后将较难的区域前向传播到下一级自模型处理。卷积仅在特定区域上计算,降低了计算量。

优点:
1. 浅层处理较易区域,深层处理较难区域,自适应学习提升性能;
2. LC的训练和测试时间都有提升;
3. 端到端的训练结构,所有子模型联合训练。

与V&J级联思路不同,层级联拒绝置信度较高的样本,低置信度的将本前向传播,层级联策略如下图所示:
这里写图片描述

上图中,所有像素分为三个级别,较易ES,中等MS和较难HS。较易的像素对应第一级正确分类置信度高于95%的子集,较难的样本对应误分类置信度高于95%的子集。中等样本置信度低于95%。

策略:第一步将ES和HS识别出,将MS传播到第二级。上
原因:
1. 上图显示70%的HS像素在物体的边界处,易混淆。对HS进行训练,易造成过拟合。
2. 30%像素属于ES,去除ES和HS,减少了约40%的像素,降低计算量。

层级联

  1. 参考网络结构
    参考网络Inception-Resnet-v2,即IRNet,下图是IRNet的结构,包括6个组成部分,即,Stem, IRNet-A/B/C,Reduction-A/B。
    这里写图片描述
    将分类网络用于分割,先做两个更改,一是去除池化层及降低Reduction-A\B卷积步长提高分辨率,二是固定BN层的参数提高其稳定性。

  2. IRNet转为IRNet-LC
    通过将不同的组件划分到不同的级联阶段实现,级联3层结构,Reduction-A之前的组件划分到第一阶段,Reduction-A与-B之间的第二阶段,其余第三阶段。如下图所示:
    这里写图片描述
    此外在每阶段两个卷积层和一个softmax层。这样每个阶段都有自己的损失函数。上图中,第一阶段识别出大部分的背景像素,将其余区域前传,这些区域此时的标记未知, 第二阶段仅处理传过来的区域,第三阶段重复这个过程。图3b显示了区域卷积与全图卷积的区别,图3c是在残差模型上进行区域卷积,特征通过等值映射和卷积得到。
    这里写图片描述
    第一阶段,给定3*515*512的图像I,输出21*64*64的分割标记图,每个21*1的向量表示对应像素属于21类物体的概率。若某像素最大得分超过阈值 ρ ,接受对该像素的预测,不再将其传播到下一层。 ρ 通常大于0.95。
    第二阶段决定哪些像素输送到第三阶段,网络仅引入了一个超参数 ρ ρ 决定了每步像素被拒绝的程度。 ρ=1.0 时,没有像素被拒绝,当 ρ 变小时,更多的像素在第一阶段就被决定归属了,没有提取到深层信息,影响性能。当 ρ=0.985 时,相对于IRNet,性能提升1.7%,速度达到15fps。

  3. 网络训练
    IRNet使用ImageNet预训练,LC增加了两卷积层的参数使用正态分布随机初始化,训练有两步:初始训练,级联训练。初始训练中最小化像素级softmax损失函数,级联训练对上一步置信度低的像素微调。

实验结果
CitySpaces每层分割可视化结果:
这里写图片描述

VOC2012上与其他方法性能和时间对比:
这里写图片描述

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值