论文主要要点记录《BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation》

最新推荐文章于 2023-12-29 17:37:34 发布

_twinkle_

最新推荐文章于 2023-12-29 17:37:34 发布

阅读量1.4k

点赞数 1

分类专栏：语义分割论文笔记每天学习8h 文章标签：算法深度学习人工智能

本文链接：https://blog.csdn.net/qq_41644339/article/details/126321414

版权

每天学习8h 同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

语义分割

3 篇文章 0 订阅

订阅专栏

论文笔记

3 篇文章 0 订阅

订阅专栏

摘要：

为了获取语义信息而丢失了底层细节信息，提出细节获取和语义信息分开获取。
较浅的网络层获取细节信息，较深的网络层获取语义信息
融合层融合特征表示
提出助推器训练策略booster training

介绍

1. 现在的语义分割主要采用两种策略：

基于空洞卷积的，并且摈弃下采样操作：具有较大的计算量和内存占用
基于编码器解码器结构，采用自顶向下和横向连接，恢复高分辨率特征图，这些跳连接对于内存的访问成本较高

2. 语义分支可以通过快速的下采样策略以及较少的通道变得轻量级，基于深度卷积，增强接收域捕获丰富的上下文信息

3. 使用带有一系列辅助预测头的增强训练策略增强推理性能，在推理阶段不会被使用

模型

细节分支需要丰富的信道容量，才能来编码丰富的空间细节信息
使用较小跨步的浅层结构关注底层的细节，具有较大的空间感受野以及较宽的通道，因此，最好不用残差连接，会增加内存访问成本，降低推理速度
语义分支与细节分支相比通道容量更低，语义分支通道数与细节分支通道数比值入<1
模型概述：双边分割网络概述。主要由三部分组成:紫色虚线框中的双通路主干，橙色虚线框中的汇聚层，黄色虚线框中的助推层。双路径主干有一个细节分支(蓝立方体)和一个语义分支(绿立方体)。Detail Branch中的三个阶段分别有ec1、C2、c3通道。通过λ(λ <1)因子可以使语义分支中相应阶段的通道变得轻量化。语义分支的最后一个阶段是上下文嵌入块的输出。同时，立方体中的数字是特征图大小与输入分辨率的比值。在聚合层部分，我们采用双边聚合层。下为下采样，U为上采样，ϕ为Sigmoid函数，nmean为元素积。此外，在助推器部分，我们设计了一些辅助分割头，在没有任何额外推理成本的情况下提高分割性能。
辅助分割头能够帮助在不增加推理成本的情况下提升模型的分割性能
快速下采样扩大了接收域。
语义分割需要较大的感知域，因此上下文嵌入层采用全局平均池化，具有较低的通道容量，较大的接收域
细节分支具有高通道容量、浅层，接收域较小。
在聚合模块中，语义分支要上采样，细节分支要下采样。融合方式有求和、串联、精心设计的方式，比如我们这里采用双向聚合

模型具体设计

1. 细节分支：实例化有三个阶段，每一层的组成：卷积层+批量归一化+激活；每个阶段的第一层的步长是2，其他层有相同的输出特征图大小和滤波器数量。

输出特征图大小为原图的1/8
高信道容量使得具有丰富的空间细节的编码
信道容量大、空间维度大、不适合用残差结构，增加访问成本，主要遵循vgg的网络层数的堆叠策略

2. 语义分支：

大的接收域和高效的计算能力，
语义分支的第一阶段采用stem模块，采用两种方式下采样缩小特征表示，然后串接为输出：高效的计算成本和有效的表达能力
语义分支需要大的接收域，所以增加上下文嵌入模块，该块使用全局平均池和残差连接，高效嵌入全局上下文

Gather-and-Expansion Layer，比原来的倒置瓶颈有了更强的特征表达能力

3. 双边引导聚合层

合并两种特征的响应。具有不同级别的特征表示，双边引导聚合层(Bilateral Guided Aggregation Layer)来融合两个分支的互补信息。利用语义分支的上下文信息来指导Detail分支的特征响应。通过不同的尺度引导，我们可以捕获不同的尺度特征表示，从而对多尺度信息进行内在编码。这种引导方式使得两个分支之间的通信更加高效。
简单的组合忽略了两种信息的多样性，导致性能较差，难以优化

4. 助推器训练策略——辅助分割头

训练阶段增强特征表示，推理阶段丢弃
辅分割头和主分割头的计算复杂度可以调节，插入到语义分支的位置可以调节

实验

推理

推理没有采用任何评估技巧，如滑动窗口评估和多尺度测试，可以提高准确性，但耗时较长。对于2048×1024分辨率的输入，我们首先将其大小调整为1024×512分辨率进行推断，然后将预测大小调整为输入的原始大小。我们用一个GPU卡测量推理时间，并重复5000次迭代以消除误差波动。我们注意到调整大小的时间包含在推理时间度量中。换句话说，在度量推理时间时，实际输入大小为2048×1024。同时，采用并集平均交(mIoU)的标准度量。