背景
语义分割是将图像中的每个像素按其语义类别进行分类,从而实现像素级别的语义理解。其在自动驾驶、医学图像、结构损伤检测等领域有着广泛的应用。
1.主流算法架构
1.1 U-Net
论文地址:https://arxiv.org/abs/1505.04597
U-Net2015年由Ronneberger等人提出,是经典的编码-解码架构。其中编码器部分利用卷积层和池化层逐步提取输入图像的特征,获取输入图像特征的潜在表示。解码器部分使用转置卷积和卷积从编码器的各级分辨率级别还原目标的细节特征。U-Net因其结构简单、易于训练和有效性而受到青睐,同时也为图像分割任务提供了一个强大的基准模型。
1.2 SegNet
论文地址:https://arxiv.org/abs/1511.00561
SegNet是2016年由Cambridge提出旨在解决自动驾驶的图像语义分割深度网络。SegNet与U-Net网络类似,主要的区别在于SegNet提出了记录池化的位置,反池化时恢复。SegNet在解码恢复信息时不再和编码器对应的分辨率级别进行拼接操作,而是直接进行转置卷积。
1.3 PSPNet
论文地址:https://arxiv.org/pdf/1612.01105.pdf
PSPNet是2017年提出的一种用于语义分割的深度卷积神经网络。其架构的主要特点是金字塔池化模块(Pyramid Pooling Module)。PSPNet最大的创新是引入金字塔池化模块,通过不同尺度的池化操作获得全局和局部信息。输入特征图被分割为不同大小的区域,并进行池化操作以提取每个区域的特征。不同池化尺度下的特征被级联在一起,形成了一个更加丰富和多样的特征表示。
1.4 UNet++
论文:https://arxiv.org/pdf/1807.10165.pdf
Unet++于2018年提出,Unet++继承了Unet的结构,同时又借鉴了DenseNet的稠密连接方式。其主要有四个结构特点:
(1)密集连接的多级UNet结构:UNet++采用了分层的、多级的UNet结构。每个UNet++模块都由一个编码器和多个解码器组成。每个解码器的特征图与上一级解码器的所有特征图相连接,形成了一种密集连接的结构,有助于更好地传递和利用不同层级的信息。
&#