8月25日计算机视觉理论学习笔记——FCN、DeepLab

最新推荐文章于 2024-03-27 16:32:12 发布

Ashen_0nee

最新推荐文章于 2024-03-27 16:32:12 发布

阅读量706

点赞数 1

文章标签：计算机视觉学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ashen_0nee/article/details/126519564

版权

文章目录

前言
一、语义分割（Semantic Segementation）
二、FCN（Fully Convolutional Networks）全卷积网络
三、DeepLab v1
- 1、孔（Hole）算法
- 2、条件随机场（CRF）
四、DeepLab v2
- 1、Atrous 空间金字塔化
五、DeepLab v3

前言

本文为8月25日计算机视觉理论学习笔记，分为五个章节：

语义分割（Semantic Segementation）；
FCN（Fully Convolutional Networks）全卷积网络；
DeepLab v1；
DeepLab v2；
DeepLab v3。

一、语义分割（Semantic Segementation）

目标：

从像素水平（pixel-level）上理解、识别图片内容；
根据语义信息分割。

输入：

图片；

输出：

同尺寸的分割标记；
每个像素会被识别为一个类别（category）。

二、FCN（Fully Convolutional Networks）全卷积网络

1、全卷积化（Convolutionalization）

将所有全连接层转换成卷积层；
适应任意尺寸输入，输出低分辨率分割图片；
卷积化后的核尺寸：
- FC6：1×1，4096；
- FC7：1×1，4096；
- FC8：1×1，类别 N。

2、反卷积（Deconvolution）

也叫转置卷积（Transposed convolution）。

(1)、外围全补零；

输入：2×2；
输出：4×4；
参数设置：
- 卷积核尺寸：3×3；
- 步长：1；
- Padding：2.

(2)、差零分数步长反卷积

输入：3×3；
输出：5×5；
参数设置：
- 卷积核尺寸：3×3；
- 步长：2；
- Padding：1.

(3)、上采样的三种实现

双线性插值：不需要进行学习，运行速度快，操作简单。

2. 反卷积；
3. 反池化：池化过程中，记录下池化后元素在对应 kernel 中的坐标，作为反池化的索引。

3、跳层结构（Skip-layer）

使用前2个卷积层的输出做融合。

三、DeepLab v1

基本结构： 优化后的 CNN + 传统的 CRF 图模型。

1、孔（Hole）算法

卷积核结构：
- 尺寸不变（3×3），元素间距变大（1 ⇒ 2）；
- 步长不变（1）.

2、条件随机场（CRF）

随机场可以看成是一组“对应同一个样本空间的”随机变量的集合。当给一个位置按照某种分布随机赋予一个值之后，其全体就叫做随机场。
$\frac{1}{Z(X)} \hat{P}(Y, X)\\ \hat{P}(Y, X) = exp(\sum_{i} w_i * f_i(Y, X) ) \\ Z(X) = \sum_{Y} exp(\sum_{i} w_i * f_i(Y, X) )$

对于每个像素 $i$ 具有类别标签 $x_i$ 及对应的观测值 $y_i$ 。这样每个像素点作为节点，像素与像素间的关系作为边，即构成了一个条件随机场。如上图所示：
$\frac{1}{Z(I)} exp(-E(x|I)).$

在 DeepLab 中，整个模型的能量函数：
$\sum_{i} \psi_u(x_i) + \sum_{i<j} \psi_p (x_i, x_j).$

其中， $x$ 是对全局 pixels 的概率预测分布， $x_i$ 是其中一个 pixels 的概率预测分布。 $\psi_u$ 是一元势函数： $\psi_u(x_i) = -logP(x_i)$ 。
二元势函数:
$\psi_p(x_i, x_j) = \mu (x_i, x_j) {\textstyle \sum_{m=1}^{K}} \omega^{(m)} k^{(m)} (\textbf{f}_i, \textbf{f}_j ).$
其中， $k$ 为 Kernel 数量， $\omega$ 为权重。

四、DeepLab v2

1、Atrous 空间金字塔化

不同感受野（rate）捕捉不同尺度上的特征；
在 Conv6 层引入4个并行空洞卷积。

五、DeepLab v3

提出了更通用的框架，适用于任何网络；
复制了 ResNet 最后的 block，并级联起来；
最后一个特征图采用全局平均化。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。