图像语义分割(2)- SegNet

SegNet是Cambridge提出的FCN改进版,专注于图像语义分割,尤其适用于自动驾驶和机器人。它保留VGG-16结构,但移除全连接层并采用对称的编码器-解码器结构。编码器通过最大池化和上采样进行尺寸调整,解码器使用反卷积恢复细节。贝叶斯SegNet引入DropOut提供置信度评估,通过多次前向采样获取结果不确定性。官方提供了基于CAFFE的实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SegNet【1】是FCN 的一个改进版,由 Cambridge 提出,旨在解决自动驾驶或智能机器人的图像语义分割

      这里写图片描述
                        图1. SegNet 分割效果

这里是官方的项目主页,上面介绍了 SegNet 的两个版本(标准版 + 实现准度预估的贝叶斯版【2】)


标准版SegNet

FCN 一样,SegNet 也基于 VGG-16。不同的是,SegNet 将后面 3 个全连接层删掉而不是像 FCN 一样,将其转换为卷积层

此外,SegNet 明确将反卷积(上采样)组织为 解码器,将卷积(下采样)组织为 编码器。提出了一个结构上很有对称美感的网络(图2)

          这里写图片描述
               图2. 网络左边由卷积+池化组成,右边由反卷积+卷积(same卷积,不改变尺寸)

1)卷积单元(图2蓝色)
可以看到,SegNet 的编码和解码都有卷积模块

这个卷积模块包含:same 卷积(卷积前后尺寸不变)、BN批归一化、ReLU激活

其中关于 same 卷积可以参考文章《 卷积神经网络CNN(1)——图像卷积与反卷积(后卷积,转置卷积)》,里面总结了 same 卷积、full 卷积和 valid 卷积 3 种形式

Batch Normalisition 通过对输入激活函数的数据做归一化处理可以在一定程度上改善梯度弥散的问题。详细分析推荐这篇文章

同样,作为 Sigmoid 的改进版,ReLU 可以通过避免输出进入饱和区域而改善梯度弥散问题

2)池化与上采样
编码与解码模块最大的不同在于,前者通过池化缩小尺寸,后者通过上采样恢复尺寸

SegNet 中使用最大池化,并且同时输出最大点的 index。同一层次的上采样根据 index 确定池化前

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值