本人小白,写博客是为了记录学习笔记,也为了和各位大佬交流,如果文中出现错误,希望各位指正,本人不胜感激!
论文题目:Boundary-Aware Segmentation Network for Mobile and Web Applications
论文链接:https://arxiv.org/pdf/2101.04704.pdf
摘要:
在本文中,我们提出了一个简单而强大的边界感知分割网络(BASNet),它包括一个预测细化架构和混合损失,高度准确的图像分割。预测-细化架构由密集监督的编码器-解码器网络和残差细化模块组成,它们分别用于预测和细化分割概率图。混合损失是二进制交叉熵、结构相似性和交集损失的组合,其引导网络学习三级(即,像素级、块级和图级)层次表示。我们评估我们的BASNet上的两个反向任务,包括显着的对象分割,伪装对象分割,显示它实现了非常有竞争力的性能与尖锐的分割边界。重要的是,BASNet在单个GPU上的运行速度超过70 fps,这有利于许多潜在的真实的应用。
文章贡献:
开发了一种新型的边界感知图像分割网络BASNet,它由一个深度监督的编码器-解码器和一个残差细化模块组成,以及一种新型的混合损失,它融合了BCE,SSIM和IoU,以在三个层面上监督准确图像分割的训练过程:像素级、块级和地图级。
模型要点:
BASNet架构由两个模块组成,预测模块是一个类似U-Net的密集监督编码器-解码器网络,它学习从输入图像预测分割概率图。多尺度残差细化模块(RRM)通过学习粗略图与GT之间的残差来细化预测模块的所得图。
预测模块:
- 预测模块是一个编码器—解码器的形式,这种架构能够同时捕获高级全局上下文和低级细节;
- 为了减少过度拟合,每个解码器阶段的最后一层由GT监督;
- 编码器具有输入卷积层和由基本res-block组成的六个级,输入卷积层和前四个阶段采用ResNet-34,我们的输入层有64个卷积滤波器,大小为3×3,步幅为1,而不是大小为7×7,步幅为2。此外,在输入层之后没有池化操作。这意味着在第二阶段之前的特征图具有与输入图像相同的空间分辨率。这与最初的ResNet-34不同,ResNet-34在第一个特征图中具有四分之一的分辨率。这种适应使网络能够在较早的层中获得更高分辨率的特征图,同时降低整体感受野,在ResNet-34的第四阶段之后增加了两个阶段。这两个阶段由三个基本的res-block组成,在大小为2的非重叠最大池化层之后具有512个过滤器。
ResNet34网络参数:
残差细化模块:
包含一个输入层,一个编码器,一个桥,一个解码器和一个输出层。与预测模块不同,编码器和解码器都有四个阶段。每个阶段只有一个卷积层。每层都有64个大小为3×3的过滤器,然后是批处理归一化和ReLU激活函数。桥阶段还有一个卷积层,其中有64个大小为3 × 3的滤波器,然后是批量归一化和ReLU激活。非重叠最大池化用于编码器的下采样,双线性插值用于解码器中的上采样。
剩余对于我来说不是很重要,就没有看。