《昇思25天学习打卡营第10天|FCN图像语义分割》

曲小歪

已于 2024-07-06 00:27:55 修改

阅读量215

点赞数 4

文章标签：学习人工智能

于 2024-07-05 23:56:02 首次发布

本文链接：https://blog.csdn.net/m0_58790800/article/details/140220460

版权

图像语义分割（semantic segmentation）是图像处理和机器视觉技术中关于图像理解的重要一环，AI领域中一个重要分支，常被应用于人脸识别、物体检测、医学影像、卫星图像分析、自动驾驶感知等领域。

语义分割的目的是对图像中每个像素点进行分类。与普通的分类任务只输出某个类别不同，语义分割任务输出与输入大小相同的图像，输出图像的每个像素对应了输入图像每个像素的类别。语义在图像领域指的是图像的内容，对图片意思的理解，下图是一些语义分割的实例：

模型简介

FCN主要用于图像分割领域，是一种端到端的分割方法，是深度学习应用在图像语义分割的开山之作。通过进行像素级的预测直接得出与原图大小相等的label map。因FCN丢弃全连接层替换为全卷积层，网络所有层均为卷积层，故称为全卷积网络。

全卷积神经网络主要使用以下三种技术：

卷积化（Convolutional）

使用VGG-16作为FCN的backbone。VGG-16的输入为224*224的RGB图像，输出为1000个预测值。VGG-16只能接受固定大小的输入，丢弃了空间坐标，产生非空间输出。VGG-16中共有三个全连接层，全连接层也可视为带有覆盖整个区域的卷积。将全连接层转换为卷积层能使网络输出由一维非空间输出变为二维矩阵，利用输出能生成输入图片映射的heatmap。
上采样（Upsample）

在卷积过程的卷积操作和池化操作会使得特征图的尺寸变小，为得到原图的大小的稠密图像预测，需要对得到的特征图进行上采样操作。使用双线性插值的参数来初始化上采样逆卷积的参数，后通过反向传播来学习非线性上采样。在网络中执行上采样，以通过像素损失的反向传播进行端到端的学习。
跳跃结构（Skip Layer）

利用上采样技巧对最后一层的特征图进行上采样得到原图大小的分割是步长为32像素的预测，称之为FCN-32s。由于最后一层的特征图太小，损失过多细节，采用skips结构将更具有全局信息的最后一层预测和更浅层的预测结合，使预测结果获取更多的局部细节。将底层（stride 32）的预测（FCN-32s）进行2倍的上采样得到原尺寸的图像，并与从pool4层（stride 16）进行的预测融合起来（相加），这一部分的网络被称为FCN-16s。随后将这一部分的预测再进行一次2倍的上采样并与从pool3层得到的预测融合起来，这一部分的网络被称为FCN-8s。 Skips结构将深层的全局信息与浅层的局部信息相结合。

网络特点

不含全连接层(fc)的全卷积(fully conv)网络，可适应任意尺寸输入。
增大数据尺寸的反卷积(deconv)层，能够输出精细的结果。
结合不同深度层结果的跳级(skip)结构，同时确保鲁棒性和精确性。

FCN的架构

编码器（Encoder）：编码器部分通常是一个预训练的分类网络，如VGG16或ResNet。编码器通过多个卷积层和池化层逐步降低输入图像的空间分辨率，并提取高层次的语义特征。

解码器（Decoder）：解码器部分通过反卷积层或上采样层逐步恢复图像的空间分辨率。解码器的输出是与输入图像尺寸相同的特征图，每个像素的值表示该像素所属的类别。

跳跃连接（Skip Connections）：为了更好地恢复细节信息，FCN使用跳跃连接，将编码器中的低层特征直接传递到解码器的相应层。这种做法可以结合高层语义信息和低层空间信息，从而提高分割精度。

FCN的训练

损失函数： FCN通常使用交叉熵损失函数来衡量预测结果与真实标签之间的差距。为了处理类别不平衡问题，可以使用加权交叉熵或其他改进的损失函数。

数据增强：在训练过程中，可以使用数据增强技术（如随机裁剪、旋转、翻转等）来增加数据多样性，提高模型的泛化能力。

优化方法：常用的优化方法有随机梯度下降（SGD）及其变种（如Adam优化器），这些方法可以有效地更新网络参数，使损失函数逐渐减小。

应用与改进

应用： FCN在许多计算机视觉任务中都有广泛应用，如自动驾驶中的道路检测、医疗图像分析中的器官分割、遥感图像中的土地利用分类等。

改进： FCN在图像语义分割中取得了显著进展，但仍存在一些问题，如对细节的恢复能力不足、对小物体的分割效果不佳等。为了解决这些问题，研究人员提出了许多改进方法，如U-Net、SegNet、DeepLab等。

曲小歪

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《昇思25天学习打卡营第10天|FCN图像语义分割》

FCN主要用于图像分割领域，是一种端到端的分割方法，是深度学习应用在图像语义分割的开山之作。通过进行像素级的预测直接得出与原图大小相等的label map。因FCN丢弃全连接层替换为全卷积层，网络所有层均为卷积层，故称为全卷积网络。全卷积神经网络主要使用以下三种技术：卷积化（Convolutional）使用VGG-16作为FCN的backbone。VGG-16的输入为224*224的RGB图像，输出为1000个预测值。VGG-16只能接受固定大小的输入，丢弃了空间坐标，产生非空间输出。
复制链接

扫一扫