行列可分离卷积 separable convolution

RidgerLi

已于 2022-09-22 09:15:13 修改

阅读量1.3k

点赞数 1

文章标签：线性代数矩阵

于 2022-09-18 18:01:01 首次发布

本文链接：https://blog.csdn.net/Ridger_/article/details/126920706

版权

0. 概述

行列可分离卷积(separable convolution)主要应用于图像处理算法中，用于将一遍2D离散卷积(也称滤波，下文交替使用)操作分离成2遍1D卷积操作。如果图像像素数为 $m$ ，卷积核(也称卷积模板、模板)大小为 $k * k$ ，则行列分离卷积可以将时间复杂度由 $m*k^2$ 次乘法，简化到 $m * 2 k$ 次乘法。

行列可分离技术应用的前提是卷积核是可分离的。

1. 推导

a. 卷积的定义

假设现在要对图像 $A_{m*n}$ (像素矩阵)应用模板核 $D_{k*k}$ 进行卷积操作，并且 $D$ 满足行列可分离性质。
即
$R_{i,j} = \sum_{a = i - \lfloor k/2\rfloor} ^ {i + \lfloor k/2 \rfloor} \sum_{b = i - \lfloor k/2\rfloor} ^ {i + \lfloor k/2 \rfloor} A_{a,b} * D_{a - i + \lfloor k/2\rfloor, b - j + \lfloor k/2\rfloor} \tag{1}$

其中， $R$ 为卷积后的结果图像矩阵，下表 $X_{i,j}$ 表示 $X$ 矩阵的第i行第j列个元素。 $\lfloor a \rfloor$ 表示对 $a$ 下取整。

上式表示目标图像矩阵的第 $i, j$ 个像素，是由原像素矩阵 $A_{i,j}$ 周围大小为 $k$ 的方阵与卷积核 $D$ 内积而得。(更直观的解释请百度卷积/离散卷积)

图引自/img-blog.csdnimg.cn/20200321235543275.jpg

b. 卷积核可分离的前提

而由于模板核 $D$ 满足行列可分离性质，有

$D_{i,j} = E_i * F_j \tag{2}$

其中， $E$ 为 $k * 1$ 的列向量， $F$ 为 $1 * k$ 的行向量，也就是说， $k * k$ 的模板核 $D$ 可以用两个1D的向量矩阵相乘表示。

c. 推导

将 $(2)$ 式代入 $(1)$ 式中可得，

$R_{i,j} = \sum_a \sum_b A_{a,b} * E_a * F_b \tag{3}$

为了简化表示，其中 $E, F$ 矩阵下标直接用 $a, b$ 代替。其值应为 $\lfloor k/2\rfloor,b - j + \lfloor k/2\rfloor$ ，对应范围 $[0, k]$ 。
上式内层求和号是对 $b$ 进行求和， $E_a$ 项可看作常数提到 $\sum_b$ 外面来，可得，

$R_{i,j} = \sum_a E_a \sum_b A_{a,b} * F_b \tag{4}$

仔细看 $\sum_b A_{a,b} * F_b$ 这一项，由于 $F_b$ 是一个一维行向量，所以这一项也可以写成 $\sum_{a=1}^{1}\sum_b A_{a,b} * F_{a,b}$ 。是的，这就是文章开头所提出的二维卷积的定义式，同理，我们可以将式 $(4)$ 变成如下形式，

$T_{i,j} = \sum_{a=i}^{i}\sum_b A_{a,b} * F_{a,b} \tag{4.1}$

$R_{i,j} = \sum_{b=j}^j\sum_a E_{a,b} * T_{a,b} \tag{4.2}$

其中， $T_{i,j}$ 为使用行列分离之后的行向量卷积图像得到的中间结果。

show

图引自img-blog.csdnimg.cn/20200321235543275.jpg

至此，行列可分离卷积证明结束。

2. 拓展

在各种涉及到性能优化的卷积操作中，无论是人工智能(不太熟悉，只是看到过几篇文章提到了这个方法)，还是图像处理、实时渲染领域，都在寻求方法将卷积模板可分离化，来加速算法的执行。
或许在之后的优化工作中，考虑卷积的可分离性不失为一种方向。

在浅薄的知识里，Separable-Subsurface-Scattering $^{[1]}$ 文中将一种图像后处理的模板近似成行列可分离的卷积核，并通过可分离的性质加速了对画面进行实时后处理滤波的速度，达到了很好的速度结果。

同时SVD分解 $^{[2]}$ 提供了一种将矩阵低秩近似为行列可分离矩阵的方法，通过这种方法，既可以获得给定阶数下对目标矩阵能量损失最小，同时还能分离成目标行列数的方法。(在 Frobenius范数定义下的能量损失最小，实际上是 $min(\sum_i \sum_j A_{i,j} * B_{i,j})$ ，就是矩阵对应元素乘积，当两个矩阵相减，并且对应元素乘积最小就叫Frobenius范数定义下的能量损失最小)