这篇很理论……比较难。
1.几个问题
1.1 基本信息
2019 NIPS
1.2 做了什么
1.3 实现方法 & 创新性
提出一个比较通用的E(2)群等变神经网络,囊括了前人提出的模型,平面上的旋转、平移等等变群。
将核空间约束分解为不可约子空间,并给出了群E(2)及其子群对该约束的求解方法。
给出了群表示如何改变特征图的概述,论述了群表示与非线性的兼容性。
1.4 代码
2.数学部分 & 模型构建
2.1 欧式平面R^2的等距(Isometries)群
欧几里德群E(2)是平面R2的等距群,由平移、旋转和反射组成。E(2)中的群变换在实际图像中很常见。等距的意思就是这些变换不会改变平面上点的模长(例如,到原点的距离)。
下表是本论文中G的所有可能选择。
2.2 E(2)群-可操控特征场
可操控卷积神经网络(Steerable CNNs,是一篇论文)体系将特征空间定义为可操控特征场(Steerable feature fields) f f f的空间。
方向
与普通CNN相比,Steerable CNN的特征场与变换律是有关联的,该变换律规定了它们在E(2)(或子群)作用下的变换,从而赋予特征一个方向的概念。意思是,由于每个点x上都有一个矢量f(x),而矢量是可以有“方向”这个概念的。因此对矢量场整体进行群变换时,矢量场上的每个点上的f(x)也要发生变换。
标量场和矢量场
欧几里德群作用在标量场上时,仅把每个像素移动到一个新的位置。与标量场不同的是,对矢量场进行群变换时,每个矢量不仅被移动到一个新的位置,而且还通过动作改变其方向。
特征场的变换律ρ、群表示、诱导表示
相同的群操作 g g g作用在不同的特征场上时,虽然坐标变换 g − 1 ( t − x ) g^{-1}(t-x) g−1(t−x)是一样的,但是特征场中的元素的变化 ρ ( g ) \rho(g) ρ(g)是不一样的。
关于群表示的科普,可以查看这个百度文库。
对特征场的变换,也可以用诱导表示(induced representation)来说明:
Steerble CNN有多个特征场
特征场的类型是一种超参数。
2.3 E(2)-Steerable 卷积
为了保存特征空间的转换律ρ(g),网络的每个层都要求是等变的。
上文中给出了给定类型ρ的特征图在给定群操作下的变换。然而一个卷积=卷积核*特征图,因此下文将探讨卷积核在群操作下的变换。
上式的“核限制”很关键。如果一个核满足这样的限制,那么就有下面的结果(注意,核限制条件体现在红线的地方):
由于核约束是线性的,它的解构成了传统CNN所考虑的无约束核向量空间的一个线性子空间。因此,求解G-steerable空间的基就足够了,根据该基,等变卷积可以参数化。受限核空间的低维性提高了可操纵CNN的参数效率,类似于CNNs相对于MLPs提高了参数效率。
2.4 核约束的不可约表示分解
这一节要求对群的表示理论有一定了解,可以查看这个百度文库科普。
对于网络中使用的每对输入和输出类型 ρ i n ρ_{in} ρ