双边滤波思想在CNN中的应用----Pixel Adaptive Convolutional Neural Networks

本文链接：https://blog.csdn.net/csuwoshikunge/article/details/99767043

双边滤波思想在CNN中的应用--Pixel Adaptive Convolutional Neural Networks

- 1. Pixel Adaptive CNN主要内容
- 2. Pixel Adaptive Convolution与双边滤波的联系

1. Pixel Adaptive CNN主要内容

这篇文章[1]来自CVPR2019, 主要提出了文中所称的“Pixel Adaptive Convolution(PAC)”模块，本质上是采用双边滤波的思想来扩展CNN中的标准卷积操作，而不仅仅只是考虑空间域卷积。下面简要介绍原文[1]的主要部分（即PAC模块），为了跟原文内容的一致性，下面的公式符号尽量与原文一致。令
$~~~~~~~~~~~~~~~~v^l=(v^l_1,v^l_2,...,v^l_n),v^l_i\in R^c$ ，表示来自CNN中第 $l$ 层的feature maps，具有 $c$ 个通道；
$~~~~~~~~~~~~~~~~W^l\in R^{c\prime\times c\times s\times s}$ ，表示CNN的第 $l$ 层与 $l + 1$ 层之间的卷积核， $c\prime$ 表示第 $l + 1$ 层的通道数， $s$ 表示卷积核尺寸；
$p_i=(u_i,v_i)^{T}$ 表示像素坐标， $b^l$ 表示偏置项；
$~~~~~~~~~~~~~~~~\Omega(i)$ 表示像素 $i$ 周围 $s\times s$ 的卷积窗口尺寸;
$~~~~~~~~~~~~~~~~f_i\in R^d$ 表示像素 $i$ 的某种特征，例如在RGB图像中取 $f_i=(u_i,v_i,r_i,g_i,b_i)$ 。
则CNN中的标准空间卷积操作，可以表示为：
$v^{l+1}_i=\sum_{j\in\Omega(i)}W^l[p_i-p_j]v^l_j+b^l\in R^{c\prime}\tag{1}$
为了融合像素的其他特征信息先验（可以来自网络学习的其他特征或者预先设定的特征），一种直接的方式就是使得卷积操作不仅仅是在空间上考虑，如下：
$v^{l+1}_i=\sum_{j\in \Omega(i)}\tilde{W}(f_i-f_j)v^l_j+b^l$ 理想的类双边滤波的过程(不仅仅只是考虑空间域的滤波，例如同时考虑将该特征作为函数时，其值域空间的相邻关系)，如果要对特征 $v^l_j$ 进行类双边滤波，一般会把 $v^l_j$ 投到高维空间中，如
$v^l_i\mapsto(u_i,v_i,f_i,v^l_i)\in R^{1\times 1 \times \dim{f_i}\times\dim{v^l_i}}$ 因为在高维空间中更加容易把特征点集 $\{v^l_i\}_i$ ，但是把 $v^l_j$ 投射到高维空间中，会使得点集 $\{v^l_i\}_i$ 在高维空间中非常稀疏和不规则，使得标准的卷积操作不太容易实现，也即使得 $\tilde{W}(f_i-f_j)$ 的计算相当困难。（关于双边滤波原理的分析，可以参考前一篇博客图像滤波原理之双边滤波）

因此文章[1]为了使得高维空间中的滤波(空间域和值域)，能够利用现有的CNN中标准卷积操作，使用了如下的卷积方式（即文中所称的PAC），来近似模拟类双边滤波过程，
$v^{l+1}_i = \sum_{j\in \Omega(i)}K(f_i,f_j)W[p_i-p_j]v^l_j+b^l\tag{2}$
其中 $K\in R^{c\prime \times c \times s\times s}$ 是一个固定的函数，例如 $K(f_i,f_j)=exp(-\frac{1}{2}(f_i-f_j)^T(f_i-f_j))$ 。为了说明这个过程，引用原文[1]中的图片：
在这里插入图片描述

2. Pixel Adaptive Convolution与双边滤波的联系

下面分析PAC与双边滤波的联系，为了叙述的方便，首先回顾下一下双边滤波：
$\tilde{I_i}=\frac{1}{\sum w(p_i,p_j)}\sum_{p_j\in \Omega{(p_i)}}w(p_i,p_j)I_j,$ $w(p_i,p_j)=e^{-\frac{(u_i - u_j)^2+(v_i-v_j)^2}{2\sigma_{s}^{2}}-\frac{|I_i-I_j|^2}{2\sigma_{r}^2}}\tag{3}$
其中 $u_i,v_i), I_i$ 分别表示像素 $p_i$ 的像素坐标和像素值。主要通过分析PAC表达式(2)中的 $K(f_i,f_j), W[p_i-p_j]$ 来说明它们之间的联系：
I) 与CNN中标准卷积的关系：当 $K(f_i,f_j)\equiv 1$ 时，PAC退化为标准的空间卷积；
II) 与双边滤波(bilateral filtering)的关系：当公式(2)中的 $f_i=\frac{I_i}{\sigma_r}$ ，且 $W[p_i - p_j]$ 取为通常的2D高斯卷积核, 这就是双边滤波的权重系数(3)。（注意：本质上CNN的卷积只在空间上进行滤波，即公式(2)中的 $W[p_i-p_j]$ 仅与空间关系，这与固定模板的高斯卷积本质上是一样的，只不过通常CNN中的卷积通过学习过程得到的，但是在一次前传中，由于共享参数，这就是一个以学习到的权重模板进行卷积滤波的过程）

结束语：注意到类双边滤波的思想，提供了一种的refine特征的方式，特别是当我们对分析的具体问题，有一组较好的先验特征信息时，就可以通过这种类双边滤波的过程嵌入到CNN中进行特征refine, 同时也使得特征refine也有了更好的解释性; 同时，在多个相关任务学习中，通过一个任务的特征按照类双边滤波的思想，去过滤其他任务的特征（也即joint bilateral filtering），也是一种加强多种任务之间联系的方式。

[1] Pixel Adaptive Convolutional Neural Networks.