计算机视觉-语义分割: FCN DeepLab Unet

funNLPer

已于 2023-09-01 21:41:19 修改

阅读量1.4k

点赞数 1

分类专栏：计算机视觉文章标签：计算机视觉人工智能深度学习

于 2023-06-17 17:35:06 首次发布

本文链接：https://blog.csdn.net/orangerfun/article/details/131255618

版权

计算机视觉专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

1. 概要
2. FCN架构
3. DeepLab-v1
- 3.1 改进点
- 3.2 空洞卷积(Atrous/Dilated convolution)
4. U-Net
参考

1. 概要

1.1 什么是语义分割

从像素水平上理解、识别图片内容，根据语义信息分割。如下图所示，输入为一张图片，输出像素水平的分割标记，每个像素会被识别为一个类别
在这里插入图片描述

1.2 语义分割作用

机器人视觉和场景理解
辅助/自动驾驶
医学X光

1.3 全卷积网络

全卷积化
- 将所有全连接层转换成卷积层
- 适应任意尺寸输入，输出低分辨率分割图片
反卷积（deconvolution）
- 将低分辨率图片进行上采样，输出同分辨率分割图片
- 跳层结构（skip layer）
  如下图所示，前面部分通过卷积，特征图尺寸越来越小，最后需要通过将小的特征图反卷积成和图片大小相同的尺寸，这样边界识别问题比较大。因此会将之前的特征图信息和当前最后特征图一起处理

1.4 反卷积

反卷积（deconvolution）操作过程
(1) 外围全补零（Full Padding）

输入 $\times 2$
输出 $\times 4$
参数设置：
- 卷积核尺寸： $\times 3$
- 步长 1
- padding: 2
  具体过程如下图所示

(2) 插零分数步长反卷积

输入： $\times 3$
输出： $\times 5$
卷积核尺寸： $\times 3$
步长：2
padding：1

1.5 上采样三种方式

（1）双线性插值
已知 $Q_{11}(x_1,y_1)、Q_{12}(x_1,y_2)、Q_{21}(x_2,y_1)、Q_{22}(x_2,y_2)$ ，求其中点 $P (x, y)$ 的值，如下图所示
在这里插入图片描述
双线性插值是分别在两个方向计算了共3次单线性插值，如图所示，先在 $x$ 方向求2次单线性插值，获得 $R_1(x, y_1)$ 、 $R_2(x, y_2)$ 两个临时点，再在 $y$ 方向计算1次单线性插值得出 $P (x, y)$ （实际上调换2次轴的方向先y后x也是一样的结果）
具体可以参考：一篇文章为你讲透双线性插值