[OpenMMLab]AI实战营第六节课

最新推荐文章于 2025-07-22 23:05:26 发布

乐乐要当航天猿

最新推荐文章于 2025-07-22 23:05:26 发布

阅读量466

点赞数

CC 4.0 BY-SA版权

分类专栏：无所不能的OpenMMLab 文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/LY_970909/article/details/128978766

无所不能的OpenMMLab 专栏收录该内容

10 篇文章

订阅专栏

语义分割是一种将图像中的每个像素分类的任务，常见应用包括无人驾驶、医疗影像分析等。基本方法是从颜色区分到使用CNN进行像素分类，但全连接层的固定尺寸问题通过转为卷积核解决。预测图的升采样常使用双线性插值或转置卷积。FCN和Unet分别通过多层级特征融合解决细节丢失问题。DeepLab系列引入空洞卷积增大感受野，条件随机场用于后处理优化边界。此外，空间金字塔池化ASPP也被用于获取不同尺度的信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语义分割算法基础

任务：图像按照物体的类别分隔成不同区域，即将每个像素进行分类

应用：无人驾驶、医疗、人像、智能遥感

思路

基本思路：按照颜色区分 --> 逐像素分类（滑动窗口，用CNN分类，重复计算太多）

全连接层的卷计划：解决固定尺寸问题

每一个全连接层转为一个卷积核，通过卷积核得到每一个特征图，即一个类别的语义分割图
在这里插入图片描述

预测图的升采样：

1、双线性插值

2、转置卷积：可学习的升采样层

零插值 --> 可学习卷积核 --> 升采样的特征图

在这里插入图片描述

基于多层级特征的上采样

1、FCN

高层特征经过多次降采样，细节丢失严重，结合低层次和高层次特征图来解决

在这里插入图片描述

2、Unet

逐级融合高低层次特征
在这里插入图片描述

上下文信息

图像周围内容，帮助我们做出更准确的判断 – 而滑动窗口并没有上下文信息

解决：感受野要大，多尺度池化 PSPNet

在这里插入图片描述

空洞卷积与DeepLab系列

1、空洞卷积

在零插值的特征图中，(下采样 + 卷积) = 空洞卷积

在这里插入图片描述

2、条件随机场CRF

模型直接输出的分割图较为粗糙，尤其在物体边界处不能产生很好的分割效果，DeepLab v1&v2使用条件随机场作为后处理手段，结合原图颜色信息和神经网络预测的类别得到精细化分割结果。

能量函数：
$E(\boldsymbol{x})=\sum_{i} \theta_{i}\left(x_{i}\right)+\sum_{i j} \theta_{i j}\left(x_{i}, x_{j}\right)$
第一项：
$\theta_{i}\left(x_{i}\right)=-\log P\left(x_{i}\right)$
第二项：
$\theta_{i j}\left(x_{i}, x_{j}\right)=\mu\left(x_{i}, x_{j}\right)\left[w_{1} \exp \left(-\frac{\left\|p_{i}-p_{j}\right\|^{2}}{2 \sigma_{\alpha}^{2}}-\frac{\left\|I_{i}-I_{j}\right\|^{2}}{2 \sigma_{\beta}^{2}}\right)+w_{2} \exp \left(-\frac{\left\|p_{i}-p_{j}\right\|^{2}}{2 \sigma_{\gamma}^{2}}\right)\right]$
3、空间金字塔池化 ASPP