语义分割模型------deeplabv1、deeplabv2、deeplabv3、deeplabv3+改进总结

最新推荐文章于 2024-08-19 16:37:16 发布

小飞龙程序员

最新推荐文章于 2024-08-19 16:37:16 发布

阅读量683

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/m0_47405013/article/details/127350505

版权

目标检测专栏收录该内容

40 篇文章 1 订阅 ¥119.90 ¥299.90

订阅专栏

超级会员免费看

本文详细介绍了DeepLab系列模型的发展，包括Deeplabv1、Deeplabv2、PSPNet、Deeplabv3和Deeplabv3+。Deeplab模型通过空洞卷积和空间金字塔池化来处理多尺度对象，提高语义分割的准确性。Deeplabv3+则结合了encoder-decoder结构和Xception backbone，以增强模型的分割能力和边缘恢复能力。

摘要由CSDN通过智能技术生成

1.Deeplabv1

由于卷积神经网络在提取特征时会将输入图像逐渐缩小，featuremap变小形成高级别的特征对分割任务并不适用，DeepLab采用了空洞卷积替换传统的卷积和fully connected CRF。为了利用已经训练好的VGG模型进行fine-tuning，又想改变网络结构得到更加dense的score map而引入的空洞卷积。
1-空洞卷积的引入
1.1 LargeFOV
VGG16的原始模型，卷积层的卷积核大小统一为 3x3，步长为 1，最大池化层的池化窗口为 2x2，步长为2 。
改进是使用 1x1 的卷积层代替FC层，那么就变成了全卷积网络，输出得到的是得分图，也可以理解成概率图。将pool4和pool5的步长由2改为1，这样在原本FC7的位置，VGG网络总的步长由原来的32变为8（总步长=输入size/特征图size）。一般来说，池化层的步长为2，池化后输出大小变为输入大小的一半。原VGG16模型有5次池化，缩小 2^5=32倍，修改后的VGG16有3次步长为2的池化，缩小 2^3=8倍，两次步长为1的池化，输出大小基本不变，所以说VGG网络总的步长由原来的32变为8。这样改的原因是为了获得更为稠密（dense&#x