《昇思25天学习打卡笔记》---第九天|应用实践-计算机视觉-FCN图像语义分割

最新推荐文章于 2024-09-15 08:52:10 发布

ccvzcc

最新推荐文章于 2024-09-15 08:52:10 发布

阅读量308

点赞数 4

文章标签：计算机视觉学习笔记

本文链接：https://blog.csdn.net/ccvzcc/article/details/140025210

版权

语义分割

语义分割是计算机视觉领域中的一个重要概念，它是一种像素级的图像理解任务。具体来说，语义分割是指给定一张图像，任务是为图像中的每个像素分配一个类别标签，这个标签代表了该像素所属的物体或区域的语义类别。例如，在一张街道景象的照片中，语义分割模型会为天空、道路、行人、车辆等不同对象的像素分别标记上不同的标签，这样就可以明确地区分和识别图像中各个部分的内容和含义。

全卷积神经网络

全卷积神经网络（Fully Convolutional Network，简称FCN）是一种特殊类型的卷积神经网络，主要用于图像处理中的语义分割任务，即对图像中的每个像素进行分类，确定其所属的类别。FCN通过以下关键特点区别于传统的卷积神经网络：

无全连接层（Fully Connected Layers）：传统CNN在最后几层通常使用全连接层来进行分类，这要求输入图像具有固定的尺寸。而FCN则移除了这些全连接层，代之以卷积层，使得网络可以接受任意尺寸的输入图像，并输出相应尺寸的分割图。
卷积层输出：FCN的输出是一个与输入图像尺寸相同的特征图（heatmap），其中的每个像素值对应输入图像中该位置像素的类别概率。这意味着网络不仅识别图像中存在哪些类别，还能精确到每个像素的分类。
上采样（Upsampling）：由于卷积和池化操作会导致特征图尺寸减小，FCN通过上采样技术（如反卷积（deconvolution）、转置卷积（transposed convolution）或最近邻插值、双线性插值等）来恢复特征图的分辨率，以便生成与输入图像相同尺寸的输出。
端到端学习：FCN允许从输入图像到像素级分类的端到端学习，整个网络都是可微的，有利于通过反向传播进行训练。
多尺度特征融合：为了提高分割的准确性，FCN还可能包含跳跃连接（skip connections），将浅层的特征（富含细节信息）与深层的特征（富含上下文信息）结合，以提升最终分割的精度和边界定位能力。

FCN因其灵活性和高效性，在图像语义分割领域具有广泛的应用，包括自动驾驶、医学影像分析、卫星图像处理等多个领域。

这是一个完整的流程，具体的中文解释如下：

输入图像image，经过pool1池化后，尺寸变为原始尺寸的1/2。
经过pool2池化，尺寸变为原始尺寸的1/4。
接着经过pool3、pool4、pool5池化，大小分别变为原始尺寸的1/8、1/16、1/32。
经过conv6-7卷积，输出的尺寸依然是原图的1/32。
FCN-32s是最后使用反卷积，使得输出图像大小与输入图像相同。
FCN-16s是将conv7的输出进行反卷积，使其尺寸扩大两倍至原图的1/16，并将其与pool4输出的特征图进行融合，后通过反卷积扩大到原始尺寸。
FCN-8s是将conv7的输出进行反卷积扩大4倍，将pool4输出的特征图反卷积扩大2倍，并将pool3输出特征图拿出，三者融合后通反卷积扩大到原始尺寸。

这是简单的理论部分。

对于实验部分，仍在研究中.....

ccvzcc

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫