Deep Dual-resolution Networks for Real-time andAccurate Semantic Segmentation of Road Scenes

重点:卷积网络从输入到输出,会经过多个下采样层(一般为5个,输出原图1/32的特征图),从而逐步扩大视野获取高层语义特征,高层语义特征靠近输出端但分辨率低,高分率特征靠近输入端但语义层次低。

        语义分割是一项需要将输入图像的每个像素分配给相应的标签 的基本任务。Deeplab 减少了ReNet中一些下采样操作以获取高分辨率, 并利用利用空洞卷积来获取更大的感受野。(感受野(Receptive Field),指的是神经网络中神经元“看到的”输入区域,在卷积神经网络中,feature map上某个元素的计算受输入图像上某个区域的影响,这个区域即该元素的感受野。),空洞卷积的操作同样使用在Deeplab V2 /V3 PSPNet以及DenseASPP上。

       语义分割是一种密集的预测任务,所以神经网络需要输出大感受野的高分辨率的特征图,以此来产生满意的结果,但这么做的代价就是十分花费计算。巨大的计算量化费对于实时分割的要求是无法满足的,也因此无法满足部署。针对实时分割要求,DFANet采用深度多尺度特征聚合和轻量级深度可分离卷积,在100 FPS下实现71.3%的测试mIoU。与常规的编码器-解码器结构不同,作者提出一种由空间路径和语境路径组成的新型双边网络。

         由于缺少空间细节,普通编码器的最后一层输出不能直接用于预测分割掩码。如果只去除分类骨干的下采样,有效接受域就太小,无法学习高级语义信息。一种可行策略是利用扩展卷积来建立像素之间的远程连接,同时删除最后两个下采样层。然而,由于高分辨率特征图维数的指数增长和扩张卷积实现的优化不足,这也对实时推理提出了新的挑战。

       一些研究尝试寻找标准空洞卷积的骨干替代法。DeepLabv3plus 一个简单的解码器,融合上采样的特征图和低级特征图。HRNet强调深分辨率表示并且其空洞卷积更加高效率。 结果表明,该方法具有较高的计算效率和推理速度,因为HRNet在于它的高分辨率信息流更薄。以HRNetV2-W48为例,1/4分辨率和1/8分辨率特征的尺寸分别为48和96,这比预训练的带有扩张卷积的ResNets要小得多。

        几乎所有的实施语义分割采用两种基本方法:编码器-解码器结构和双边结构。轻量级编码器在这两种方法中占据主要地位。

 

     1)编码器-解码器结构:与空洞卷积架构相比,该结构花费更小的计算量与时间。其编码器通常是一个深度网络,通过重复空间约简来提取上下文信息,解码器通过插值或转置卷积来恢复分辨率一次完成密集预测。特别地,编码器可以是预先训练的轻量级骨干ImageNet或者一个从零开始训练的有效变种ERFNet和ESPNet。

     2)双边结构:编码器-解码器结构减少了计算量,但是由于其多次下采样导致丢失了信息,而这些信息并不能通过简单上采样恢复,因此会导致其语义分割精度丢失。双边结构就是为了解决这个问题。除了一条提取语义信息的路径外,另一条高分辨率的浅路径提供了丰富的空间细节作为补充。为了进一步提高准确率,BiSeNetV2[24]使用全局平均池来进行上下文嵌入,并提出了基于注意的特征融合。BiSeNetV1&V2中的两条通路最初是分开的,而Fast-SCNN中的两条分支是分开的并共享下采样模块。

       除了现有的双路径方法,DDRNets的深、薄高分辨率分支在保证推理效率的同时,实现了多种特征融合和充分的ImageNet预训练。

      轻量级编码器:有许多计算效率高的骨干可以用作编码器,如MobileNet , ShuffleNet]和小版本的Xception。MobileNet将标准卷积替换为深度可分卷积,以减少参数和计算。进入翻译页面们的方法可以很容易地缩放以达到更高的精度(在城市景观上超过80% mIoU)。ShuffleNet利用分组卷积的紧密,提出了一种信道洗牌操作来促进不同分组之间的信息融合。然而,这些网络包含大量深度可分离卷积,这不能有效地实现与现有的GPU架构。

      语义分割的另一个关键是如何获取更丰富的上下文信息。空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP)),

以多尺度的信息得到更精确的分割结果。ASPP并行的采用多个采样率的空洞卷积层来探测,以多个比例捕捉对象以及图像上下文。PSPNet中的金字塔池化模块(PPM)通过在卷积层之前实现金字塔池化,在计算效率上比ASPP更高。与卷积核的局部性质不同,自我注意机制擅长捕捉全局依赖关系。DANet利用位置注意和通道注意两种方式来进一步改进特征表示。OCNet利用自我注意机制来探索对象上下文,它被定义为属于同一对象类别的一组像素。然而,这些上下文提取模块是为高分辨率特征图设计和执行的,对于轻量级模型来说太耗时了。考虑到低分辨率特征图为输入,我们通过更大尺度和更深特征聚合对PPM模块进行增强。

      

      

整体的结构如上图,上边一条主线是高分辨率分支,下边是低分辨率分支,RB是Residual block(残差块),RBB是bottleblock。DAPPM就是4.3中的结构。图中的虚线连接表示不经过上采样或下采样处理,实线连接则代表有那样的处理。Seg.Head可以理解为额外的监督机制,这是为了让网络训练的更好,可以通过改变seg.head上的卷积通道数来改变计算复杂度。之前的论文中Seg.Head上使用的是3x3卷积,这里作者改为3x3连接1x1。所有的模块都在ImageNet上进行了预训练。

      

       为了方便起见,我们可以在广泛使用的分类主干中添加一个额外的高分辨率分支,例如ResNets。为了实现分辨率和推理速度之间的平衡,我们让高分辨率分支创建分辨率为输入图像分辨率1/8的特征映射。因此,高分辨率分支被附加到conv3阶段的末尾。请注意,高分辨率分支不包含任何降采样操作,并与低分辨率分支一对一对应,形成深高分辨率表示。然后在不同的阶段进行多重双边特征融合,充分融合空间信息和语义信息。为了扩展输出维度,在每个分支的末尾添加一个模块。双边融合包括将高分辨率分支融合到低分辨率分支(高到低融合)和将低分辨率分支融合到高分辨率分支(低到高融合)。对于高到低的融合,高分辨率的特征图在点求和之前通过一个3×3卷积序列进行下采样,步长为2。对于低分辨率到高分辨率的特征图,首先用1×1卷积进行压缩,然后用双线性插值进行上采样。

    深度聚合金字塔池化模块:我们提出了一个新的模块来进一步从低分辨率特征地图中提取上下文信息。以图像分辨率为1/64的特征映射为输入,执行指数步长大池化核,生成图像分辨率为1/128、1/256、1/512的特征映射。还利用了输入特征图和全球平均池化生成的图像级信息。我们认为,通过3×3或1×1卷积将所有多尺度的上下文信息单一地混合是不够的。收

Res2Net 的激励,通过向上采样特征图,然后使用更多的3×3卷积,以分层残差的方式融合不同尺度的上下文信息。

  

       在DAPPM中,更大的池化内核提取的上下文与更深层的信息流进行集成,通过对不同深度的池化内核与不同大小的池化内核进行集成形成多尺度特性。虽然,DAPPM包含更多的卷积层和更复杂的融合策略,由于输入分辨率仅为图像分辨率的1/64,几乎不影响推断速度。例如,对于1024×1024图像,特征图的最大分辨率是16×16。

       在训练阶段增加监督可以简化深度卷积神经网络的优化。在PSPNet中,增加一个辅助loss来监督ResNet-101的res4 22 block的的输出,根据实验结果将相应的权重设为0.4。BiSeNetV2提出了一种增强训练策略,该策略在语义分支的每个阶段的末尾添加额外的分割头。然而,这需要大量的实验来找到最优的权重来平衡每次损失,并导致不可忽略的训练内存的增加。为了获得更好的结果,SFNet采用了一个类似的策略名为级联深度监督学习。在本文中,为了与大多数方法进行公平比较,我们只采用了简单的额外监督。我们添加如图4所示的辅助损失,仿照PSPNet将权重设为0.4。在测试阶段丢弃辅助分割头。最终损失为交叉熵损失的加权和,可表示为:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

谢陈(xiec177)

致力于解决深度学习框架问题。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值