《昇思25天学习打卡笔记》---第九天|应用实践-计算机视觉-FCN图像语义分割

语义分割

语义分割是计算机视觉领域中的一个重要概念,它是一种像素级的图像理解任务。具体来说,语义分割是指给定一张图像,任务是为图像中的每个像素分配一个类别标签,这个标签代表了该像素所属的物体或区域的语义类别。例如,在一张街道景象的照片中,语义分割模型会为天空、道路、行人、车辆等不同对象的像素分别标记上不同的标签,这样就可以明确地区分和识别图像中各个部分的内容和含义。

全卷积神经网络

全卷积神经网络(Fully Convolutional Network,简称FCN)是一种特殊类型的卷积神经网络,主要用于图像处理中的语义分割任务,即对图像中的每个像素进行分类,确定其所属的类别。FCN通过以下关键特点区别于传统的卷积神经网络:

  1. 无全连接层(Fully Connected Layers):传统CNN在最后几层通常使用全连接层来进行分类,这要求输入图像具有固定的尺寸。而FCN则移除了这些全连接层,代之以卷积层,使得网络可以接受任意尺寸的输入图像,并输出相应尺寸的分割图。

  2. 卷积层输出:FCN的输出是一个与输入图像尺寸相同的特征图(heatmap),其中的每个像素值对应输入图像中该位置像素的类别概率。这意味着网络不仅识别图像中存在哪些类别,还能精确到每个像素的分类。

  3. 上采样(Upsampling):由于卷积和池化操作会导致特征图尺寸减小,FCN通过上采样技术(如反卷积(deconvolution)、转置卷积(transposed convolution)或最近邻插值、双线性插值等)来恢复特征图的分辨率,以便生成与输入图像相同尺寸的输出。

  4. 端到端学习:FCN允许从输入图像到像素级分类的端到端学习,整个网络都是可微的,有利于通过反向传播进行训练。

  5. 多尺度特征融合:为了提高分割的准确性,FCN还可能包含跳跃连接(skip connections),将浅层的特征(富含细节信息)与深层的特征(富含上下文信息)结合,以提升最终分割的精度和边界定位能力。

FCN因其灵活性和高效性,在图像语义分割领域具有广泛的应用,包括自动驾驶、医学影像分析、卫星图像处理等多个领域。

这是一个完整的流程,具体的中文解释如下:

  1. 输入图像image,经过pool1池化后,尺寸变为原始尺寸的1/2。
  2. 经过pool2池化,尺寸变为原始尺寸的1/4。
  3. 接着经过pool3、pool4、pool5池化,大小分别变为原始尺寸的1/8、1/16、1/32。
  4. 经过conv6-7卷积,输出的尺寸依然是原图的1/32。
  5. FCN-32s是最后使用反卷积,使得输出图像大小与输入图像相同。
  6. FCN-16s是将conv7的输出进行反卷积,使其尺寸扩大两倍至原图的1/16,并将其与pool4输出的特征图进行融合,后通过反卷积扩大到原始尺寸。
  7. FCN-8s是将conv7的输出进行反卷积扩大4倍,将pool4输出的特征图反卷积扩大2倍,并将pool3输出特征图拿出,三者融合后通反卷积扩大到原始尺寸。

这是简单的理论部分。

对于实验部分,仍在研究中.....

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值