BiSeNet:

Abstract:双边分割网络

首先设计了Spatial Path(SP) with a small stride,用于得到spatial information and 生成 high-resolution features。然后,Context Path(CP) with a fast 下采样策略,获得做够的receptive field。并在两条路径顶端引入新的Feature Fusion Module
提出的结构平衡了速度和性能。Cityscapes数据集上2048x1024输入得到了68.4%miou,105FPS(Titan xp)。

Introduction

实时语义分割加快模型的几种方法:
1.减少input size,简单有效,但损失spatial details,尤其是边缘信息
2. 减少 channel , 削弱了 spatial capacity
3. Enet 放弃模型的最后一个阶段,由于ENet在最后阶段放弃了下采样操作,模型的感受野不足以覆盖较大的对象,导致识别能力较差。
为了解决spatial details的损失,采用Unet结构。但有两个缺点:1.由于在高分辨率的特征图上引入额外计算,会减少模型速度;2.大部分空间信息并不能很容易的通过浅层恢复。
提出的BiSeNet有SPCP,分别处理空间信息的损失和感受野。SP只有3个卷积layers得到1/8的特征图,保留丰富的空间细节。CP在Xception尾部添加一个GAP。为了在不损失speed的情况下追求精度,研究了两条路径的融合以及最终预测的refinement,提出了Feature FusionModule (FFM) and Attention Refinement Module (ARM) 。

在这里插入图片描述

BiSeNet

在这里插入图片描述
由于输入尺寸缩小,丢失了原始图像的大部分空间信息,而轻量级模型由于通道剪纸而破坏了空间信息。
SP: 三个layers,每个stride为2,得到1/8的feature map。由于 large spatial size of feature maps 编码了丰富的空间信息
**CP:**由于SP编码了丰富的空间信息,CP被设计为提供足够多的感受野。采用Xception,并在尾部添加GAP。
ARM:在CP中,我们是用ARM来refine 每一阶段的特征。ARM使用GAP来capture global context 来计算一个注意力vector 来指导特征学习。它很容易的整合了global context information,而没有任何 up-sampling operation.计算cost几乎可以不计。

首先关注计算:SP虽然输入尺寸较大,但只有三个卷积layers,不会有太多的计算消耗。CP则采用轻量级模型来快速下采样。然后关注准确率: SP编码丰富的空间信息,CP提供large 感受野。他们在提高性能方面是互补的。
Feature fusion module:两条路径在特征图上是不同的,不能简单的sum。SP得到更多的details information,CP得到context information,换句话说,SP输出的特征是low level,CP输出的特征是high level。(有点像SENet)
8倍上采样(双线性插值)不用反卷积。
**loss:**一个主要的loss,还有2个辅助loss(在CP),loss都是Softmax loss. lp是concatenated output的损失函数,li是stage i 的辅助loss,本文 a=1,K = 3. 只在训练中使用辅助loss。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值