【无标题】

用于实时语义分割的双分割网络(BiseNet)


一、摘要

二、介绍

三、相关工作

四、BiseNet

五、总结

摘要

语义分割需要丰富的信息空间和较大的接受区域。然而,现代方法通常会牺牲空间分辨率来实现实时推理速度,这导致了信息的匮乏。在这篇文章中,我们用一种新颖的双边分割网络(BiseNet)来解决这个难题。我们首先设计一个小步幅的SP网络来保存空间信息并生成高分辨率的特征,使用CP(Context Path)采用快速下采样的策略来获取足够的接受域,在这两种方法的基础上,我们引入了一个新的特征融合模块去有效的结合特征。提出的架构在Cityscapes、CamVid、COCO-Stuff数据集上 在速度和分割性能之间取得了正确的平衡。尤其对于输入2048*1024的输入我们在Cityscapes测试数据集Mean IOU达到68.4%,在一台NVIDIA Titan XP卡上速度达到105Fps,比现有的方法明显快了很多。

介绍

语义分割的研究是计算自视觉的一项基本任务,即为每个像素点分配语义标签。可广泛用于增强现实设备、自动驾驶、视频监控等领域。这些应用程序对快速交互活响应的高效推理速度有很高的要求。
在这里插入图片描述

目前的方法:1、给出了对输入图像进行裁剪或调整大小的操作,以及对通道的裁剪或者舍弃阶段的轻量级模型。2、采用U形结构。3、如上图所示,演示了我们提出的双边分割网络(Bisenet)。黑色虚线表示破坏空间信息的操作,红色虚线表示减少接受区域的操作,绿色块是我们提出的SP。在网络部分,每个块代表不同下采样大小的特征图。块的长度代表空间分辨率,厚度代表通道数。

最近,实时的语义分割算法表明,加速模型的方法主要有三种。1、尝试通过裁剪或者调整输入大小来减少计算复杂度,虽然方法简单有效,但空间细节的丢失会破坏预测,特别是边界附近的空间谢姐,导致度量和可视化精度下降。2、通过对网络的通道进行修剪,来提高推理速度,特别是在基础模型的早期阶段。然而,他削弱了空间容量。3、提出ENet,放弃模型的最后阶段,追求一个轻量的紧凑的框架,然而这种方法的缺点也是显而易见的:因为ENet在最后阶段放弃了下采样操作,模型的接受域不足以覆盖较大的对象,导致识别能力较差。综上所述,上述方法都是讲准确率和速度相互妥协,在实际应用中较差,上图(a)中给出例子

为了弥补上述空间细节的损失,研究人员广泛采用U形结构,通过融合骨干网络的层次特征,逐渐提高了空间分辨率,并填补了一些缺失的细节。1、完整的U形结构会降低模型的速度,因为在高分辨率图上会引人额外的计算。2、更重要的是,在上图(b)所示,在裁剪过程中丢失大部分的空间信息,如果设计到浅层,则很难恢复。换句话说,u型结构虽然好,但不是本质的解决方案。

通过以上的总结,我们BISeNet提出了两种方法:Spatial Path(SP)和Context Path(CP)。设计这两个部分分别面对空间信息的丢失和感受野的收缩。这两个部分设计是明确的。对于Spatial Path(SP),我们只叠加了3个卷积层,得到1/8的feature map,保留了丰富的空间数据。至于Context Path(CP),我们在Xception尾部附加了一个全局平均池化层,接受字段最大的骨干网络工作,上图(c)中显示了这两个组件的结构

为了不损失速度的情况下提高预测精度,我们还研究了两种路径的融合和最终预测的细化,并分别提出了特征融合模块(FFM)和注意细化模块(ARM)我们接下来的实验表明,这两个额外的组件进一步提高Citysacpes,CamVid 和COCO-Stuff基准上的整体语义分割精度。

我们主要贡献如下:
(1)提出了带有SP和CP双边分割网络
(2)设计了两个具体的模块,特征融合模块(FFM)和注意细化模块(ARM)
(3)我们在cityscape、CamVid和COCO-Stuff的基准上取得了令人印 象深刻的结果。更具体地说,在105帧/秒的cityscape测试数据集上,我们得到了68.4%的结果。

相关工作

今年来,许多基于FCN的语义分词在不同的语义分割上取得了较好的性能,这些方法大多用于编码更多的空间信息和扩大接受区域

空间信息:卷积神经网络通过连续下采样操作对高级语义信息进行编码。然而,在语义分割任务中,图像的空间信息是预测详细输出的关键。现有的方法是例如(DUC/PSPNet/DeepLab v3)使用膨胀卷积来保持faature map的空间大小。全局卷积网络利用“大核”来扩大接受域。

U型结构:是可以恢复一定程度的空间信息,原来的fcn网络编码通过一个跨接(skip-connected)的网络结构来区别不同级别的特征。有些方法利用其特定的细化结构形成U形结构。利用反卷积来构造U形网络结构。U-net介绍了本任务中有效的跳跃结构。全局的卷积网络结合U形结构和“大卷积核”。LPR采用拉普拉斯金字塔重构网络,RefineNet增加了多路径的细化结构来实现预测。DFN设计了通道注意模块来实现特征选择,但是在U形结构,一些丢失的空间信息不容易恢复。

上下文信息:语义分割需要上下文信息来获取高质量的结果,大多数方法是扩大接受域或者融合不同的语境信息,利用卷积层中不同的膨胀率来获取不同的上下文信息。语义分割网络通常采用多尺度特征集合
PSPNet[40]应用了一个“PSP”模块,它包含了几个不同规模的平均池层。[6]设计了一个“ASPP”模块,使用全局平均池来捕获图像的全局上下文。[38]通过尺度自适应卷积层对神经网络进行改进,获得自适应的场上下文信息。DFN[36]在u形结构的顶部添加全局池来对全局上下文进行编码。

注意机制:注意机制可以利用信息的高层信息来引导前向网络,cnn注意力的机制取决于图像的尺度

实时分割:实时语义分割要求快速生成高质量的预测,SegNet利用较小的网络结构和跳跃链接方法实现较快的速度。E-net设计了一个轻量级的网络,提供非常快的速度,ICNet采用图像级联来加速语义段的表达方法,应用级联结构,减少了“容易区”的计算,设计了一种新型的两列网络和空间稀疏性,来降低计算成本。我们提出了采用轻量级模型来提供足够的接受域。此外我们设置了一个浅而宽的网络捕捉足够的空间信息。

3.Bisenet

首先对SP和CP进行详细的阐述

在这里插入图片描述
介绍上图 a网络体系结构。块的长度表示空间的大小,厚度表示通道数。b:注意细化模块(ARM)

3.1:SP介绍
我们提出了一种sp 来保持原始输入图像的空间大小,并对丰富的空间信息进行编码。SP路径包含三层。每一层包括stride=2的卷积,然后是批量归一化和Relu。因此,该路径提取出的输出特征图为原始图像的1/8.由于特征图具有较大的空间大小,可以编码丰富的空间信息。如上

3.2:CP介绍
扩大接受域,一些是利用金字塔池化模块,或者大核,但是这些操作计算量大,占用内存大。提出利用轻量级模型和全局平均池化来提供大的接受域。Xception等轻量级能够快速对特征图进行下采样,获得较大的接受域,然后再尾部添加一个平均池化,最后,将全局池化的上采样输出特征与轻量级模型的特征结合。

3.3:注意细化模块
ARM采用全局平均池化来捕获全局上下文,并计算一个注意向量来指导特征学习,这种设计可以细化上下文路径中每个阶段的输出特性,该算法无需上采样操作,可轻松集成全局上下文信息,因此计算成本可以忽略不计。
3.4 特征融合模块(FFM)
两条路径的特征在特征层上存在差异。SP输出特征低特征水平,CP输出特征是搞特征水平,FFM存在就是为了融合SP和CP。

我们利用批量正常化来平衡特征的尺度。我们将连接的特征集合成一个特征向量,并计算一个权重弄向量,就想SENET,该权值向量可以对特征进行重新加权,即特征的选择和组合

3.5损失函数
利用辅助损失函数来指导我们所提出的方法的训练。我们使用主损失函数来监督整个Bisenet的输出。此外,我们增加了两个特定的辅助损失函数来监督Context Path的输出,如深度监督[35]。损失函数均为Softmax损失,如式1所示。此外,我们使用参数α来平衡主损失和辅助损失的权重,如式2所示。在我们的论文中α等于1。关键损失使得优化器对模型的优化更加舒适。
在这里插入图片描述

总结


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值