DeepLab 笔记
一、背景
DCNN 存在的问题:
- 多次下采样使输出信号分辨率变小 —— 空洞卷积
- 池化对输入变换具有内在空间不变性 —— CRF
二、空洞卷积
1. 作用
- 保证感受野不发生变化
- 得到密集的 feature map
2. 卷积核
3. 输出大小
4. 感受野
三、条件随机场(CRF)
作用:精细化边缘信息
DeepLab 后面接了一个全连接条件随机场 (Fully-Connected Conditional Random Fields) 对分割边界进行 refine label map。CRF 经常用于 pixel-wise 的 label 预测。把像素的 label 作为随机变量,像素与像素间的关系作为边,即构成了一个条件随机场且能够获得全局观测时,CRF 便可以对这些 label 进行建模。全局观测通常就是输入图像。
令随机变量 $X_{i}$ 是像素 i 的标签,$X_{i} \in L = l_{1},l_{2},\cdots,l_{L}$,令变量 $X$ 是由 $X_{1},X_{2},\cdots,X_{N}$ 组成的随机向量,N 就是图像的像素个数。
假设图 $G = \left(V,E\right)$,其中 $V = X_{1},X_{2},\cdots,X_{N}$,全局观测为$I$。条件随机场符合吉布斯分布,$\left(I,X\right)$ 可以被模型为 CRF,
在全连接的CRF模型中,标签 x 的能量可以表示为:
其中,$\theta_{i}\left(x_{i}\right)$ 是一元能量项,代表着将像素 i 分成 label $x_{i}$ 的能量,二元能量项 $\varphi_{p} \left(x_{i},x_{j}\right)$ 是对像素点 i, j 同时分割成 $x_{i},x_{j}$ 的能量。二元能量项表述像素点与像素点之间的关系,鼓励相似像素分配相同的标签,而相差较大的像素分配不同的标签,而这个“距离”的定义与颜色值和实际相对距离有关。所以这样 CRF 能够使图片尽量在边界处分割。最小化上面的能量就可以找到最有可能的分割。而全连接条件随机场的不同就在于,二元势函数描述的是每一个像素与其他所有像素的关系,所以叫“全连接”。具体来说,在 DeepLab 中一元能量项直接来自于前端 FCN 的输出,计算方式如下:
而二元能量项的计算方式如下:
其中,$\mu \left ( x_{i},x_{j} \right ) = 1$, 当 $i \neq j$ 时,其他的值为0。也就是说当标签不同是,才有惩罚。剩余表达式是在不同特征空间的两个高斯核函数,第一个基于双边高斯函数基于像素位置 p 和 RGB 值 I,强制相似 RGB 和超参数 $\sigma_{\alpha},\sigma_{\beta},\sigma _{\gamma}$ 控制高斯核函数的权重。