【无标题】

最新推荐文章于 2022-11-18 20:04:16 发布

全世界最好的佳慧

最新推荐文章于 2022-11-18 20:04:16 发布

阅读量3k

点赞数 1

文章标签：计算机视觉目标检测

本文链接：https://blog.csdn.net/qq_49533912/article/details/124166094

版权

用于实时语义分割的双分割网络（BiseNet）

一、摘要

二、介绍

三、相关工作

四、BiseNet

五、总结

摘要

语义分割需要丰富的信息空间和较大的接受区域。然而，现代方法通常会牺牲空间分辨率来实现实时推理速度，这导致了信息的匮乏。在这篇文章中，我们用一种新颖的双边分割网络（BiseNet）来解决这个难题。我们首先设计一个小步幅的SP网络来保存空间信息并生成高分辨率的特征，使用CP(Context Path)采用快速下采样的策略来获取足够的接受域，在这两种方法的基础上，我们引入了一个新的特征融合模块去有效的结合特征。提出的架构在Cityscapes、CamVid、COCO-Stuff数据集上在速度和分割性能之间取得了正确的平衡。尤其对于输入2048*1024的输入我们在Cityscapes测试数据集Mean IOU达到68.4%，在一台NVIDIA Titan XP卡上速度达到105Fps，比现有的方法明显快了很多。

介绍

语义分割的研究是计算自视觉的一项基本任务，即为每个像素点分配语义标签。可广泛用于增强现实设备、自动驾驶、视频监控等领域。这些应用程序对快速交互活响应的高效推理速度有很高的要求。
在这里插入图片描述

目前的方法：1、给出了对输入图像进行裁剪或调整大小的操作，以及对通道的裁剪或者舍弃阶段的轻量级模型。2、采用U形结构。3、如上图所示，演示了我们提出的双边分割网络（Bisenet）。黑色虚线表示破坏空间信息的操作，红色虚线表示减少接受区域的操作，绿色块是我们提出的SP。在网络部分，每个块代表不同下采样大小的特征图。块的长度代表空间分辨率，厚度代表通道数。

最近，实时的语义分割算法表明，加速模型的方法主要有三种。1、尝试通过裁剪或者调整输入大小来减少计算复杂度，虽然方法简单有效，但空间细节的丢失会破坏预测，特别是边界附近的空间谢姐，导致度量和可视化精度下降。2、通过对网络的通道进行修剪，来提高推理速度，特别是在基础模型的早期阶段。然而，他削弱了空间容量。3、提出ENet，放弃模型的最后阶段，追求一个轻量的紧凑的框架，然而这种方法的缺点也是显而易见的：因为ENet在最后阶段放弃了下采样操作，模型的接受域不足以覆盖较大的对象，导致识别能力较差。综上所述，上述方法都是讲准确率和速度相互妥协，在实际应用中较差，上图（a）中给出例子

为了弥补上述空间细节的损失，研究人员广泛采用U形结构，通过融合骨干网络的层次特征，逐渐提高了空间分辨率，并填补了一些缺失的细节。1、完整的U形结构会降低模型的速度，因为在高分辨率图上会引人额外的计算。2、更重要的是，在上图（b）所示，在裁剪过程中丢失大部分的空间信息，如果设计到浅层，则很难恢复。换句话说，u型结构虽然好，但不是本质的解决方案。

通过以上的总结，我们BISeNet提出了两种方法：Spatial Path（SP）和Context Path（CP）。设计这两个部分分别面对空间信息的丢失和感受野的收缩。这两个部分设计是明确的。对于Spatial Path（SP），我们只叠加了3个卷积层，得到1/8的feature map，保留了丰富的空间数据。至于Context Path（CP），我们在Xception尾部附加了一个全局平均池化层，接受字段最大的骨干网络工作，上图（c）中显示了这两个组件的结构

为了不损失速度的情况下提高预测精度，我们还研究了两种路径的融合和最终预测的细化，并分别提出了特征融合模块（FFM）和注意细化模块（ARM）我们接下来的实验表明，这两个额外的组件进一步提高Citysacpes，CamVid 和COCO-Stuff基准上的整体语义分割精度。

我们主要贡献如下：
（1）提出了带有SP和CP双边分割网络
（2）设计了两个具体的模块，特征融合模块（FFM）和注意细化模块（ARM）
（3）我们在cityscape、CamVid和COCO-Stuff的基准上取得了令人印象深刻的结果。更具体地说，在105帧/秒的cityscape测试数据集上，我们得到了68.4%的结果。

3.Bisenet

首先对SP和CP进行详细的阐述

在这里插入图片描述
介绍上图 a网络体系结构。块的长度表示空间的大小，厚度表示通道数。b：注意细化模块（ARM）

3.1：SP介绍
我们提出了一种sp 来保持原始输入图像的空间大小，并对丰富的空间信息进行编码。SP路径包含三层。每一层包括stride=2的卷积，然后是批量归一化和Relu。因此，该路径提取出的输出特征图为原始图像的1/8.由于特征图具有较大的空间大小，可以编码丰富的空间信息。如上

3.2：CP介绍
扩大接受域，一些是利用金字塔池化模块，或者大核，但是这些操作计算量大，占用内存大。提出利用轻量级模型和全局平均池化来提供大的接受域。Xception等轻量级能够快速对特征图进行下采样，获得较大的接受域，然后再尾部添加一个平均池化，最后，将全局池化的上采样输出特征与轻量级模型的特征结合。

3.3：注意细化模块
ARM采用全局平均池化来捕获全局上下文，并计算一个注意向量来指导特征学习，这种设计可以细化上下文路径中每个阶段的输出特性，该算法无需上采样操作，可轻松集成全局上下文信息，因此计算成本可以忽略不计。
3.4 特征融合模块（FFM）
两条路径的特征在特征层上存在差异。SP输出特征低特征水平，CP输出特征是搞特征水平，FFM存在就是为了融合SP和CP。

我们利用批量正常化来平衡特征的尺度。我们将连接的特征集合成一个特征向量，并计算一个权重弄向量，就想SENET，该权值向量可以对特征进行重新加权，即特征的选择和组合

3.5损失函数
利用辅助损失函数来指导我们所提出的方法的训练。我们使用主损失函数来监督整个Bisenet的输出。此外，我们增加了两个特定的辅助损失函数来监督Context Path的输出，如深度监督[35]。损失函数均为Softmax损失，如式1所示。此外，我们使用参数α来平衡主损失和辅助损失的权重，如式2所示。在我们的论文中α等于1。关键损失使得优化器对模型的优化更加舒适。
在这里插入图片描述

总结

全世界最好的佳慧

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

用于实时语义分割的双分割网络（BiseNet）摘要介绍相关工作BiseNet摘要语义分割需要丰富的信息空间和较大的接受区域。然而，现代方法通常会牺牲空间分辨率来实现实时推理速度，这导致了信息的匮乏。在这篇文章中，我们用一种新颖的双边分割网络（BiseNet）来解决这个难题。我们首先设计一个小步幅的SP网络来保存空间信息并生成高分辨率的特征，使用CP(Context Path)采用快速下采样的策略来获取足够的接受域，在这两种方法的基础上，我们引入了一个新的特征融合模块去有效的结合特征。提出的架构
复制链接

扫一扫