论文笔记：Group Equivariant Convolutional Networks

最新推荐文章于 2023-05-31 17:52:21 发布

hongbin_xu

最新推荐文章于 2023-05-31 17:52:21 发布

阅读量8.5k

点赞数 21

分类专栏：论文阅读深度学习论文笔记文章标签：深度学习

本文链接：https://blog.csdn.net/hongbin_xu/article/details/91341101

版权

论文阅读同时被 3 个专栏收录

33 篇文章 29 订阅

订阅专栏

深度学习

33 篇文章 3 订阅

订阅专栏

论文笔记

33 篇文章 13 订阅

订阅专栏

Group Equivariant Convolutional Networks

1、四个问题

要解决什么问题？
- 对卷积神经网络进行扩展，并提出一个在特定的变换（旋转、平移等，也可表示为一个特殊的群）下具有等变性的网络。
用了什么方法解决？
- 提出了一种新的卷积神经网络结构——群等变卷积神经网络（Group equivariant Convolutional Neural Network），简写为G-CNN。
- G-CNN中采用了群卷积（Group Convolution，简写为G-convolution）。
效果如何？
- 作者在带有旋转变换的MNIST和CIFAR数据上进行了实验，证实旋转群CNN能较好地抗旋转。
还存在什么问题？
- 实验不够充分，MNIST和CIFAR都是相对简单的数据集，基本上准确率不会太低。
- 文中定义的旋转群只是针对二维图像，如果定义的旋转群扩展到三维会怎么样？

2、论文概述

2.1、简介

尽管现阶段的神经网络还缺少理论支撑，但是许多经验及实验都验证了：卷积权值共享（convolutional weight sharing）和网络深度（depth）对于神经网络的效果起到了重要作用。
卷积权值共享的有效性依赖于其在大多数感知任务中都具有平移不变性：预测标签的函数和数据分布对于平移变换都近似于不变。
得益于平移不变性，共享权重的卷积核可以从图像的局部区域提取特征，并且参数量远少于全连接网络，同时能够学习更多有效的变换信息。
**平移不变性（translation equivariant）**的定义：
- 将图片平移后再送入若干卷积层得到的结果，与将原图直接送入相同卷积层得到结果后再对特征图进行平移所得到的结果一样。
CNN中已经具有了平移不变性，这篇论文的工作是将神经网络拓展到更大的群上，引入更多的对称性，如旋转（rotation）和反射（reflection）。

2.2、结构化和等变特征表示

感觉这一段用原文更好理解：
We construct representations that have the structure of a linear G-space, for some chosen group G. This means that each vector in the representation space has a pose associated with it, which can be transformed by the elements of some group of transformations G. This additional structure allows us to model data more efficiently: A filter in a G-CNN detects co-occurrences of features that have the preferred relative pose, and can match such a feature constellation in every global pose through an operation called the G-convolution.
对于一个网络或是网络的一层 $\Phi$ ，将输入特征映射到输出特征，应该保留结构信息（structure preserving）。对于G空间上来说， $\Phi$ 具有等变性的定义如下：
- $\Phi\left(T_{g} x\right)=T_{g}^{\prime} \Phi(x)$
- 对输入 $x$ 进行变换 $g$ ，用公式表示就是： $T_g x$ ，然后将其送入函数 $\Phi$ 中输出结果 $\Phi\left(T_{g} x\right)$ 。
- 先将输入 $x$ 送入函数 $\Phi$ 中，然后对其输出的特征图进行变换 $g$ ，输出的结构是 $T_{g}^{\prime} \Phi(x)$ 。
- 等变性（Equivariance）就意味着上述两种变换是相等的。
- 变换操作 $T$ 和 $T^{\prime}$ 不需要完全相同，只需要它们对于任意两种变换 $g$ 和 $h$ 来说都满足： $T (g h) = T (g) T (h)$ 。（ $T^{\prime}$ 同理）
在深度学习中，通常来说，等变性（equivariance）比不变性（invariance）更重要，因为我们无法根据不变特征判断其空间关系（比如人脸的眼睛、鼻子、嘴巴的空间关系）。

2.3、数学框架

2.3.1、对称群

对于一个对象来说，对称性指的是，在一次变换前后，对象不变。
- 对于图像上采样的网格 $\mathbb{Z}^{2}$ 来说，对其进行翻转得到： $-\mathbb{Z}^{2} = \left\{(-n,-m) |(n, m) \in \mathbb{Z}^{2}\right\}=\mathbb{Z}^{2}$ 。。
- 所以翻转对于采样的网格来说是对称的。
有以下性质的变换的集合被称为对称群（symmetry group）：
- 如果有两个对称变换（symmetry transformations） $g$ 和 $h$ ，将他们组合起来得到的结果 $g h$ 也是一个对称变换。
- 逆变换 $g^{-1}$ 也是一个对称变换，将其与变换 $g$ 组合起来，得到的是恒等变换。
一个简单的例子就是2D图片上的整数平移群， $\mathbb{Z}^{2}$ 。
- 群操作为平移。
- $(n, m) + (p, q) = (n + p, m + q)$
- 两个平移变换之和依然是一个平移变换，对平移变换取逆也是一个平移变换，所以这是一个群。

2.3.2、 $p 4$ 群

$p 4$ 群是由绕方形网格的中心以90度角进行旋转和平移变换组成的群。
这个群的元素至少采用三个整数 $r$ ， $u$ ， $v$ 定义：
- $v)=\left[\begin{array}{ccc}{\cos (r \pi / 2)} & {-\sin (r \pi / 2)} & {u} \\ {\sin (r \pi / 2)} & {\cos (r \pi / 2)} & {v} \\ {0} & {0} & {1}\end{array}\right]$
- 其中 $\leq r < 4$ ，并且 $\in \mathbb{Z}^2$ 。
- 这个群上的二元操作由矩阵乘法给出。
$p 4$ 群作用在$ \mathbb{Z}^2 $上的点，等于将矩阵$ g(r, u, v) $与其次坐标特征向量$ x\left(u^{\prime}, v^{\prime}\right)$相乘：
- $\simeq\left[\begin{array}{ccc}{\cos (r \pi / 2)} & {-\sin (r \pi / 2)} & {u} \\ {\sin (r \pi / 2)} & {\cos (r \pi / 2)} & {v} \\ {0} & {0} & {1}\end{array}\right]\left[\begin{array}{l}{u^{\prime}} \\ {v^{\prime}} \\ {1}\end{array}\right]$

2.3.3、 $p 4 m$ 群

$p 4 m$ 群由以下操作组成：绕中心点的90度旋转，镜像，平移。
与 $p 4$ 群一样，可以表示为矩阵形式：
- $v)=\left[\begin{array}{ccc}{(-1)^{m} \cos \left(\frac{r \pi}{2}\right)} & {-(-1)^{m} \sin \left(\frac{r \pi}{2}\right)} & {u} \\ {\sin \left(\frac{r \pi}{2}\right)} & {\cos \left(\frac{r \pi}{2}\right)} & {v} \\ {0} & {0} & {1}\end{array}\right]$
- 其中 $\in \{ 0, 1 \}$ ， $\leq r < 4$ ，并且 $\in \mathbb{Z}^2$ 。

2.3.4、群上的函数

在CNN中的函数 $\mathbb{Z}^{2} \rightarrow \mathbb{R}^{K}$ 通常是定义在一个有界域上（图像–矩形域）。每一个像素坐标 $\in \mathbb{Z}^{2}$ ，对应着函数 $f$ 返回的特征图上的一个 $K$ 维特征向量 $f (p, q)$ 。
定义在特征图上的一种变换为 $g$ ：
- $\left[L_{g} f\right](x)=\left[f \circ g^{-1}\right](x)=f\left(g^{-1} x\right)$
- $L_g$ 表示对特征图进行 $g$ 变换。
- 这个公式的意思是，要得到进行 $g$ 变换后的特征图 $L_gf$ 上 $x$ 位置处的值，我们需要到原特征图 $f$ 上的 $g^{-1}x$ 位置上找值。
- 根据之前的定义， $L_g$ 还需要满足： $L_{g} L_{h}=L_{g h}$ 。
如果变换 $g$ 表示的是图像上的平移变换 $\in \mathbb{Z}^{2}$ ，那么 $g^{-1} x$ 就等于 $x - t$ 。
如下图所示，展示了 $p 4$ 群上的滤波器：
- $r$ 表示旋转90度，总共有4种旋转的结果，红线表示了变换关系。
如下图所示，展示了 $p 4 m$ 群上的滤波器：
- $r$ 依然表示旋转90度，红线表示旋转变换关系。 $m$ 表示镜像翻转，用蓝线表示。
定义特征图的对合函数（involution）： $f^{*}(g)=f\left(g^{-1}\right)$ 。在后面会用到。

2.4、CNN上的等变性

首先对传统CNN的等变性进行分析。
在CNN的每一层 $l$ 上，输入是一些特征图 $\mathbb{Z}^{2} \rightarrow \mathbb{R}^{K^{l}}$ ，然后使用 $K^{l+1}$ 个卷积核 $\psi^{i} : \mathbb{Z}^{2} \rightarrow \mathbb{R}^{K^{l}}$ 对特征图做卷积（convolve）或是相关（corelate）：
- 卷积：
  - $\left[f * \psi^{i}\right](x)=\sum_{y \in \mathbb{Z}^{2}} \sum_{k=1}^{K^{l}} f_{k}(y) \psi_{k}^{i}(x-y)$
- 相关：
  - $\left[f \star \psi^{i}\right](x)=\sum_{y \in \mathbb{Z}^{2}} \sum_{k=1}^{K^{l}} f_{k}(y) \psi_{k}^{i}(y-x)$
- 后续讨论以相关为主，默认将两种操作都称作是卷积。
将 $\rightarrow y+t$ 做替换，忽略特征图上最后求和的那一步，我们可以证明相关对平移具有等变性：
- $\begin{aligned}\left[\left[L_{t} f\right] \star \psi\right](x) &=\sum_{y} f(y-t) \psi(y-x) \\ &=\sum_{y} f(y) \psi(y+t-x) \\ &=\sum_{y} f(y) \psi(y-(x-t)) \\ &=\left[L_{t}[f \star \psi]\right](x) \end{aligned}$
于是我们可以说，“相关是平移群上的等变映射”；
- 原论文中的说法：correlation is an equivariant map for the translation group；或者说，correlation and translation commute。
以此类推，可以得到卷积也对平移具有等变性： $\left[L_{t} f\right] * \psi=L_{t}[f * \psi]$ 。
尽管卷积对于平移具有等变性，但是卷积对于旋转不具有等变性： $\left[\left[L_{r} f\right] \star \psi\right](x)=L_{r}\left[f \star\left[L_{r^{-1}} \psi\right]\right](x)$ 。

2.5、群等变网络

群等变网络（Group Equivariant Network）由三种层组成：群卷积、群池化和非线性单元。

2.5.1、群等变相关（G-Equivariant correlation）

对于2D图片上来说，相关就是通过平移滤波器，然后不断计算滤波器与特征图的点乘。
- $\star \psi](g)=\sum_{y \in \mathbb{Z}^{2}} \sum_{k} f_{k}(y) \psi_{k}\left(g^{-1} y\right)$
- 输入图像是 $f$ ，滤波器是 $\psi$ ，他们都是位于平面 $\mathbb{Z}^2$ 上的函数，但是输出的特征图 $\star \psi$ 是离散群 $G$ 上的一个函数。平移群是这里的离散 $G$ 的一个子群。
将相关操作推广到整个离散群 $G$ 上：
- $\star \psi](g)=\sum_{h \in G} \sum_{k} f_{k}(h) \psi_{k}\left(g^{-1} h\right)$
类似地，可以做替换 $\rightarrow u h$ ，等变性证明如下：
- $\begin{aligned}\left[\left[L_{u} f\right] \star \psi\right](g) &=\sum_{h \in G} \sum_{k} f_{k}\left(u^{-1} h\right) \psi\left(g^{-1} h\right) \\ &=\sum_{h \in G} \sum_{k} f(h) \psi\left(g^{-1} u h\right) \\ &=\sum_{h \in G} \sum_{k} f(h) \psi\left(\left(u^{-1} g\right)^{-1} h\right) \\ &=\left[L_{u}[f \star \psi]\right](g) \end{aligned}$
- 注：在第一层相关层上（文中称为first-layer G-correlation）， $f$ 和 $\psi$ 是平面 $\mathbb{Z}^2$ 上的函数， $L_u f$ 也表示在 $\mathbb{Z}^2$ 上的函数的变换。在之后的相关层上（文中称为full G-correlation），这些函数都是在群 $G$ 上。
群 $G$ 是不可交换的，对于G-卷积核和G-相关来说同理。但是特征图之间存在对合关系（involution）：
- $\star \psi=(\psi \star f)^{*}$
- 因为对合（involution）是可逆的，所以 $\star \psi$ 和 $\psi \star f$ 中的信息内容是相同的。
我们通常还习惯给卷积层的特征图加上一个偏差项。在G-卷积层上也可以这么做。
两个具有在群 $G$ 上的等变性的特征图之和依然具有等变性，因此G-conv层可以被用在很多经典的神经网络结构中。

2.5.2、非线性单元

我们可以把特征图看做群 $G$ 上的一个函数。在特征图使用非线性单元 $\nu : \mathbb{R} \rightarrow \mathbb{R}$ ，相当于多个函数的组合。定义组合操作子如下：
- $C_{\nu} f(g)=[\nu \circ f](g)=\nu(f(g))$
- $C_{\nu}$ 是对函数 $f (g)$ 的post-composing。
因为前面提到的变换操作子 $L$ 是pre-composition，所以 $C$ 和 $L$ 可交换。
- $C_{\nu} L_{h} f=\nu \circ\left[f \circ h^{-1}\right]=[\nu \circ f] \circ h^{-1}=L_{h} C_{\nu} f$
因此使用非线性单元（比如ReLU）处理后的特征图依然可以继承前一层的变换性质。

2.5.3、池化

为简化分析，将池化分为两步：不带步长的池化和下采样。
定义不考虑步长的最大池化操作为 $P$ ，其作用在特征图 $\rightarrow \mathbb{R}$ 上：
- $f(g)=\max _{k \in g U} f(k)$
- $U=\{g u | u \in U\}$ 是池化域 $\subset G$ 上的 $g$ 变换。这里的池化域的简单的理解就是邻域。
- 在一个普通的卷积神经网络中， $U$ 通常是一个 $\times 2$ 或 $\times 3$ 的方形区域， $g$ 是平移变换。
池化操作与 $L_h$ 是可交换的：
- $P L_{h}=L_{h} P$
池化的作用是减少特征图中的方差，同时对于下采样也是很有效的，换句话说，就是带有步长的池化。
在G-CNN中，步长的概念就表示一个下采样群 $\subset G$ 。因此下采样后的特征图只对 $H$ 等变，而不对 $G$ 等变。
在一个标准的卷积神经网络架构中，步长为2的池化等价于先做池化然后下采样。
如果是在之前说到的 $p 4$ 群上，子群 $H$ 包含所有4个旋转方向还有平移2的倍数的像素，池化就相当于在这个子群 $H$ 上做下采样。
要保证池化在群 $G$ 上的等变性，我们需要选择一个合适的池化域 $U$ ，这个池化域要是 $G$ 的子群 $\subset G$ 。

2.6、具体实现

离散群上的G-convolution的计算无非就是算术上的索引和矩阵内积，所以它可以直接使用GPU来并行实现。
定义一个平面对称群 $G$ 。
如果在这个群 $G$ 上的变换 $\in G$ 可以分解为一个平移 $\in \mathbb{Z}^{2}$ 和变换 $s$ ，就称为可划分的（论文中称为split）。
- 对于群 $p 4$ ，变换 $g = t s$ 可以分解为平移 $t$ 和绕原点的旋转 $s$ 。
- 对于群 $p 4 m$ ，变换则可分解为平移和旋转还有翻转。
定义G-correlation操作如下：
- $\star \psi(t s)=\sum_{h \in X} \sum_{k} f_{k}(h) L_{t}\left[L_{s} \psi_{k}(h)\right]$
- 在第一层上 $X=\mathbb{Z}^{2}$ ，之后的层上 $X = G$ 。
实际计算时，要算群 $p 4$ 或者群 $p 4 m$ 上的相关 $\star \psi$ ，我们要先计算四个旋转角度下（或是加上翻转的8种情况下）滤波器的变换 $L_{s} \psi$ 。因为相比于整幅图像，对滤波器做变换的计算开销更小。之后再在 $f$ 上做快速平面相关（卷积）即可。

2.6.1、滤波器变换

滤波器的维度为： $K^{l} \times K^{l-1} \times S^{l-1} \times n \times n$ 。
- 其中 $K^l$ 是第 $l$ 层的通道数。
- $S^{l-1}$ 表示群 $G$ 上的变换种类对于。 $\mathbb{Z}^2$ 、 $p 4$ 和 $p 4 m$ 群来说，分别是1、4、8。
- $n$ 是滤波器的空间分辨率，换句话说就是平移群上的变换种类数。
- 对于2D图像来说， $S^1=1$ ；对于 $p 4$ 群来说， $S^l=4$ ；对于 $p 4 m$ 群来说， $S^l = 8$ 。
滤波器变换 $L_S$ 实际上相当于对整个 $K^{l} \times K^{l-1}$ 的标量滤波器的输入做了置换。
- 换句话说，因为群卷积是等变的，各个角度下的特征也是等变的。以旋转为例，如果输入就旋转了90度，那么群卷积的输出也都旋转了90度，但是 $p 4$ 旋转群上的旋转是封闭的，旋转(360+90)度的结果与旋转90度相同，实际不同的旋转就相当于让对应的输出特征的顺序按照一定规则交换了一下。
如果对每个滤波器使用 $S^l$ 种变换，那么输出 $F^{+}$ 就是： $K^{l} \times S^{l} \times K^{l-1} \times S^{l-1} \times n \times n$ 。
论文中还给出了详细的在编程上的实现描述，感兴趣的可以参考论文。

2.6.2、平面卷积

G-convolution的第二部分就是使用之前计算好的扩展滤波器 $F^{+}$ 进行平面卷积计算。
主要是套用G-convolution的公式做矩阵点乘，与常规卷积一样。
但是求和时有所不同，因为是定义在 $p 4$ 群和 $p 4 m$ 群上，所以还额外要在 $S^{l}$ 上进行求和。将 $F^{+}$ 的维度 $K^{l} \times S^{l} \times K^{l-1} \times S^{l-1} \times n \times n$ reshape为 $S^{l} K^{l} \times S^{l-1} K^{l-1} \times n \times n$ 。这一步操作就类似与经典的卷积神经网络中输入通道数为 $S^{l-1} K^{l-1}$ ，输出通道数为 $S^{l} K^{l}$ 的情况。