[OpenMMLab]AI实战营第六节课

语义分割是一种将图像中的每个像素分类的任务,常见应用包括无人驾驶、医疗影像分析等。基本方法是从颜色区分到使用CNN进行像素分类,但全连接层的固定尺寸问题通过转为卷积核解决。预测图的升采样常使用双线性插值或转置卷积。FCN和Unet分别通过多层级特征融合解决细节丢失问题。DeepLab系列引入空洞卷积增大感受野,条件随机场用于后处理优化边界。此外,空间金字塔池化ASPP也被用于获取不同尺度的信息。
摘要由CSDN通过智能技术生成

语义分割算法基础

任务:图像按照物体的类别分隔成不同区域,即将每个像素进行分类

应用:无人驾驶、医疗、人像、智能遥感

思路

基本思路:按照颜色区分 --> 逐像素分类(滑动窗口,用CNN分类,重复计算太多)

全连接层的卷计划:解决固定尺寸问题

每一个全连接层转为一个卷积核,通过卷积核得到每一个特征图,即一个类别的语义分割图
在这里插入图片描述

预测图的升采样:

1、双线性插值

2、转置卷积:可学习的升采样层

零插值 --> 可学习卷积核 --> 升采样的特征图

在这里插入图片描述

基于多层级特征的上采样

1、FCN

高层特征经过多次降采样,细节丢失严重,结合低层次和高层次特征图来解决

在这里插入图片描述

2、Unet

逐级融合高低层次特征
在这里插入图片描述

上下文信息

图像周围内容,帮助我们做出更准确的判断 – 而滑动窗口并没有上下文信息

解决:感受野要大,多尺度池化 PSPNet

在这里插入图片描述

空洞卷积与DeepLab系列

1、空洞卷积

在零插值的特征图中,(下采样 + 卷积) = 空洞卷积

在这里插入图片描述

2、条件随机场CRF

模型直接输出的分割图较为粗糙,尤其在物体边界处不能产生很好的分割效果,DeepLab v1&v2使用条件随机场作为后处理手段,结合原图颜色信息和神经网络预测的类别得到精细化分割结果。

能量函数:
E ( x ) = ∑ i θ i ( x i ) + ∑ i j θ i j ( x i , x j ) E(\boldsymbol{x})=\sum_{i} \theta_{i}\left(x_{i}\right)+\sum_{i j} \theta_{i j}\left(x_{i}, x_{j}\right) E(x)=iθi(xi)+ijθij(xi,xj)
第一项:
θ i ( x i ) = − log ⁡ P ( x i ) \theta_{i}\left(x_{i}\right)=-\log P\left(x_{i}\right) θi(xi)=logP(xi)
第二项:
θ i j ( x i , x j ) = μ ( x i , x j ) [ w 1 exp ⁡ ( − ∥ p i − p j ∥ 2 2 σ α 2 − ∥ I i − I j ∥ 2 2 σ β 2 ) + w 2 exp ⁡ ( − ∥ p i − p j ∥ 2 2 σ γ 2 ) ] \theta_{i j}\left(x_{i}, x_{j}\right)=\mu\left(x_{i}, x_{j}\right)\left[w_{1} \exp \left(-\frac{\left\|p_{i}-p_{j}\right\|^{2}}{2 \sigma_{\alpha}^{2}}-\frac{\left\|I_{i}-I_{j}\right\|^{2}}{2 \sigma_{\beta}^{2}}\right)+w_{2} \exp \left(-\frac{\left\|p_{i}-p_{j}\right\|^{2}}{2 \sigma_{\gamma}^{2}}\right)\right] θij(xi,xj)=μ(xi,xj)[w1exp(2σα2pipj22σβ2IiIj2)+w2exp(2σγ2pipj2)]
3、空间金字塔池化 ASPP

参考PSPNet,DeepLab采用不同尺度的空洞卷积达到类似的效果

在这里插入图片描述

4、DeepLab v3+

在这里插入图片描述

5、语义分割算法总结
在这里插入图片描述

语义分割模型的评估

比较预测与真值
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值