Covariance in Physics and Convolutional Neural Networks
Miranda C. N. Cheng ,Vassilis Anagiannis, Maurice Weiler , Pim de Haan, Taco S. Cohen, Max Welling
在本文中,我们概述了卷积神经网络(CNNs)中协方差(或等变性)的概念。我们研究了协方差在理论物理和CNN语境中的应用的异同。此外,我们证明了协方差的简单假设,以及局域性、线性和权值共享的必要性质,足以唯一地确定卷积的形式。
文章目录
1.协方差和唯一性
众所周知,协方差原理,或者说坐标系独立性原理,是相对论的核心。狭义相对论的理论构造来描述麦克斯韦的电磁理论,满足特殊的协方差原理,即“如果选择一个坐标系K,使物理定律以其最简单的形式适用于它,那么同样的定律也适用于相对于K做匀速平移的其它坐标系K’。
K和K’之间的变换,换句话说,在不同的惯性系坐标系之间,总是可以通过(全局)洛伦兹群的一个元素来实现。事后来看,物理学没有很好的理由只在坐标的全局变换下协变。事实上,在狭义相对论发展后不久,爱因斯坦就开始发展他的理论,这个理论是关于局部的,空间-时间相关的坐标变换的协变。用他的话说,协方差的一般原则指出:“自然界的一般规律是适用于所有坐标系的方程来表示的,也就是说,对于任何替换都是协变的(广义协变的)”。剩下的就是历史了:为了实现广义协方差而引入黎曼几何的数学,以及广义相对论(GR)引力理论的形成。需要注意的是,一般协方差这一看似无意的假设实际上是如此强大,以至于它决定了GR是唯一符合这一原理的引力理论,特别是等效原理,达到了短距离修正。
在一个完全不同的背景中,卷积网络也需要一个独立于坐标的描述在近年也很明显。协变推理过程在特征模式分布对称的情况下特别有用。重要的实际例子包括卫星图像或生物医学显微镜图像,这些图像通常没有显示出更好的全局旋转性质或者手性。为了保证一个网络的推断信息对于变换后的样本是等价的,必须将网络体系结构设计为在相应的群作用下是等变的。对于平坦欧几里得空间 R d R^d Rd上的信号,已经提出了多种等变模型。特别的,相对于旋转、平移和镜像的欧几里得群,在平面图像(d=2)和三维体积信号(d=3)的等变性已经进行了研究。并且已经发现其在精度和数据效率方向优于非等变模型。等变性进一步证明是将卷积网络推广到更一般的空间(如球面)中的一个强大原则。一般情况下,(全局)H-等变网络可以推广到任意齐次空间H/G,其中G为H的一个子群 G ≤ H G\leq H G≤H。该网络的特征空间形式化为商群H/G上矢丛的截面的空间,矢丛是主纤维丛 H → H / G H\rightarrow H/G H→H/G的伴丛。因此我们前面的例子在此场景中可以解释为:E(d)-等变网络定义在欧式空间 R d = E ( d ) / O ( d ) R^d=E(d)/O(d) Rd=E(d)/O(d)上,SO(3)-等变网络定义在球面 S 2 = S O ( 3 ) / S O ( 2 ) S^2=SO(3)/SO(2) S2=SO(3)/SO(2)上。这样的描述也包括定义在闵可夫斯基时空中的庞加莱-等变网络,因为闵可夫斯基空间 R 1 , 3 R^{1,3} R1,3可以看做庞加莱群 R 1 , 3 ⋊ O ( 1 , 3 ) R^{1,3} \rtimes O(1,3) R1,3⋊O(1,3)相对于洛伦兹群 O ( 1 , 3 ) O(1,3) O(1,3)的商群。
注意,这里需要的坐标改变是全局的。当主要空间是其次的,即群作用是可传递的,意味着空间中只包含一个轨道时,全局对称性是非常自然的并且容易适用的。与此同时,在任意表面上使用有效的CNN显然是可取的,因为它通常不具备全局对称性。如果以前对齐次空间的研究是基于等变需求的,等变需要类似于协方差的狭义相对论原理,那么对一般曲面的要求就类似于协方差的广义相对论原理。换句话说,我们想要对局部的,位置相关的坐标变换有协方差。
一般流形上卷积网络局部变换等变性的要求已经在文献中描述过了1。因此局部坐标可以定义为切空间中的一个规范映射 w x : R d → T x M w_x: R^d \rightarrow T_xM wx:Rd→TxM。与齐次空间上等变网络的广义理论相似,这些网络的特征场是在流形M的矢丛上的截面上实现的,这一次矢丛是流形上的标架丛FM上的伴丛。局部变换描述为位置相关的规范变换 w x ↦ w x g x w_x \mapsto w_xg_x wx↦wxgx,此处 g x ∈ G ≤ G L ( R d ) g_x \in G \leq GL(R^d) gx∈G≤GL(Rd)是结构群G的一个元素。当标架丛选为正交标架丛时,结构群就可以约减为正交群 O ( d ) O(d) O(d)并且类似地,当结构群为洛伦兹群 O ( 1 , 3 ) O(1,3) O(1,3)时对应于GR的vierbein公式。
注意,关于广义协方差的两个问题之间的平行关系促使我们使用相同的数学语言(伪)黎曼几何。有趣的是,我们将在下一节讨论,一旦需要广义协方差和一些基本假设,我们的公理化基本上是唯一的。一旦需要协方差,这可以与GR的长距离唯一性进行比较。
2.协变卷积
在CNNs中,我们感兴趣的是设计卷积网络中每对后续子层之间的输入特征空间和输出空间之间的线性映射。在本节中个,我们将讨论线性性、局部性、协方差和权值共享四个性质,这些性质足以唯一确定它的形式。
在数学语言中,我们将第i层中的特征空间描述为一个纤维丛 E i E_i Ei,其中一根纤维为 F i F_i Fi,其中纤维丛 E i E_i Ei是主纤维丛P的一个伴丛,主纤维丛P有一个结构群G及其相关的群表示 ρ \rho ρ ,其中纤维丛 E i E_i Ei到底流形M有一个投影映射 π : E i → M \pi: E_i \rightarrow M π:Ei→M。 现在我们考虑曲面上的一个子区域U,U拥有一个单坐标卡和纤维的一个局部平凡。在场论的数学语言中,特征场对应于纤维丛的一个局部截面 f i ∈ Γ i : = Γ ( E i , U ) f_i \in \Gamma_i :=\Gamma(E_i,U) fi∈Γi:=Γ(Ei,U) ,两个截面空间的线性映射是同态映射: m ∈ H o m ( Γ i n , Γ o u t ) m \in Hom(\Gamma_{in},\Gamma_{out}) m∈Hom(Γin,Γout). 更进一步,我们需要该相信映射满足以下局部条件:给定流形M上的一个距离函数 ∣ ∣ || ∣∣ ,在我们考虑的神经网络情形中,距离函数取度规。因此对于任何 f , f ~ ∈ Γ i n f,\widetilde{f} \in \Gamma_{in} f,f ∈Γin我们有 ( m ∘ f ) ( x ) = ( m ∘ f ~ ) ( x ) (m \circ f)(x)=(m \circ \widetilde{f})(x) (m∘f)(x)=(m∘f )(x),此时对于任何满足 ∣ ∣ y , x ∣ ∣ < R ||y,x||<R ∣∣y,x∣∣<R(R是一个固定的正数)的y满足性质: f ( y ) = f ~ ( y ) f(y)=\widetilde{f}(y) f(y)=f (y)。
上面所述映射的线性性和局部性马上导致了下面映射的形成。为了说明这一点,考虑简化的场景,当输入和输出特征仅仅是标量(在坐标变换下保持不变)和M由一个有限元素构成的集合S(带有距离函数)代替时,那么上面的需求立刻导致映射的矩阵形式:
(
m
∘
f
)
(
x
)
=
∑
y
∈
S
,
∣
∣
y
,
x
∣
∣
<
R
c
x
,
y
f
(
y
)
(m\circ f)(x)=\sum_{y\in S,||y,x||<R}c_{x,y}f(y)
(m∘f)(x)=∑y∈S,∣∣y,x∣∣<Rcx,yf(y)。相似的,在卷积神经网络的情形中,我们有了以下的线性映射:
f
o
u
t
(
x
)
=
(
m
∘
f
i
n
(
x
)
)
=
∫
b
x
,
R
k
(
x
,
y
)
f
i
n
(
y
)
d
d
(
y
)
f_{out}(x)=(m \circ f_{in}(x))=\int_{b_{x,R}}k(x,y)f_{in}(y)d^d(y)
fout(x)=(m∘fin(x))=∫bx,Rk(x,y)fin(y)dd(y)
此处
d
=
d
i
m
M
d=dim M
d=dimM,
b
x
,
R
b_{x,R}
bx,R是以x为中心以R为半径的球,同时
k
:
M
×
M
→
H
o
m
(
F
i
n
,
F
o
u
t
)
k: M \times M \rightarrow Hom(F_{in},F_{out})
k:M×M→Hom(Fin,Fout)是卷积神经网络总我们所关心的卷积核。
下一步我们将引入一般协方差的条件来限制k(x,y)的形式,在齐次空间的情况下,当我们只需要特殊的协方差时,我么可以用下面的一般形式来表述这个问题。在群G下,假设输入特征形式和输出特征形式分别为 ρ i n \rho_{in} ρin和 ρ o u t \rho_{out} ρout,那么从群作用(G-作用)的一致性来看,卷积核k必定满足以下变换关系: g : k ↦ ρ o u t ( g ) k ρ i n ( g − 1 ) g:k \mapsto \rho_{out}(g)k\rho_{in}(g^{-1}) g:k↦ρout(g)kρin(g−1)。一旦我们将群元素提升为位置依赖的,那么类似的要求为: k ( x , y ) ↦ ρ o u t ( g x ) k ( x , y ) ρ i n ( g y − 1 ) k(x,y) \mapsto \rho_{out}(g_x)k(x,y)\rho_{in}(g_y^{-1}) k(x,y)↦ρout(gx)k(x,y)ρin(gy−1)。在我们的卷积神经网络中,讨论的群是局部坐标变换的群,对应的度规变化时一致的: d s 2 = g μ ν ( x ) d x μ d x ν = g μ ν ′ ( x ′ ) ( d x ′ ) μ ( d x ′ ) ν ds^2=g_{\mu\nu}(x) dx^ \mu dx^\nu=g'_{\mu\nu}(x') (dx')^ \mu (dx')^\nu ds2=gμν(x)dxμdxν=gμν′(x′)(dx′)μ(dx′)ν。注意,这不仅仅是一种数学形式:因为当处理的是无法用坐标卡覆盖的流形时,需要处理坐标变化。
然而,在不同的x和y点处理群元素是不方便的。相反,我们相拥另一种方式编码信息,这样当我们讨论k的变换时,我们可以在一个点上处理规范变换/坐标变换。这里相关的概念是平行运输。给定流形M上的一个带联络 ( E , ▽ ) (E,\bigtriangledown) (E,▽)的纤维和积分路径 γ : I = [ 0 , 1 ] → M \gamma:I=[0,1]\rightarrow M γ:I=[0,1]→M,积分路径满足 γ ( 0 ) = y \gamma(0)=y γ(0)=y和 γ ( 1 ) = x \gamma(1)=x γ(1)=x。同时对于每一个 t 0 ∈ [ 0 , 1 ] t_0 \in [0,1] t0∈[0,1]和 s 0 ∈ E γ ( t 0 ) s_0 \in E_{\gamma(t_0)} s0∈Eγ(t0),存在一个沿着 γ ( I ) ⊂ M \gamma(I) \subset M γ(I)⊂M的唯一截面s是平坦的,也即满足 s ( γ ( t 0 ) ) = s 0 s(\gamma(t_0))=s_0 s(γ(t0))=s0。在坐标系中,这意味着对于任何 t ∈ I t \in I t∈I,我们可以得到 d X μ d t ▽ μ s ( γ ( t ) ) = 0 \frac{dX^\mu}{dt} \bigtriangledown_\mu s(\gamma(t))=0 dtdXμ▽μs(γ(t))=0。注意平行运输通常是路径依赖的;换句话说,除非纤维是平坦的,否则沿着不同的路径将y移动到x会得到不同的结果。
然而在我们的应用中,我们总是在y和x之间有一个唯一确定的积分路径。也就是说,在CNN的情景中,我们让包含k的支撑集的球
B
x
,
R
B_{x,R}
Bx,R足够小,以至于球中的每个点都被球心x通过唯一的测地线连接。我们因此用
f
i
n
∣
y
(
x
)
f_{in}|_y(x)
fin∣y(x)换掉
f
i
n
(
y
)
f_{in}(y)
fin(y),那么
f
i
n
(
y
)
f_{in}(y)
fin(y)的平行运输是沿着唯一的测地线从y到中心x。记对应的新的核为
k
′
(
x
,
y
)
k'(x,y)
k′(x,y),我们得到了相应的变换性质:
k
′
(
x
,
y
)
↦
ρ
o
u
t
(
g
x
)
k
′
(
x
,
y
)
ρ
(
(
g
x
)
−
1
)
k'(x,y) \mapsto \rho_{out}(g_x) k'(x,y) \rho((g_x)^{-1})
k′(x,y)↦ρout(gx)k′(x,y)ρ((gx)−1)
事实上,点之间的测地线描述给我们提供了另外一个方便的方法参数化我们积分的点。
除了要适应对于输入特征场合输出特征场之间的变换,还必须确保积分测度保持不变。从这里我们得出结论,应该包含体积形式的因子 ∣ g ( x ) ∣ d d v \sqrt{|g(x)|}d^dv ∣g(x)∣ddv,因此我们可以把核函数写成 ∣ g ( x ) ∣ k ′ ′ ( x , v ) \sqrt{|g(x)|}k^{''}(x,v) ∣g(x)∣k′′(x,v)。同时也注意到如果处理的规范映射 w x w_x wx对应于正交基,那么体积因子 g \sqrt{g} g是1。
在这个阶段,我们可以得到线性映射的以下形式:
f
o
u
t
(
x
)
=
∫
B
x
∣
g
(
x
)
∣
k
′
′
(
x
,
v
)
f
i
n
∣
e
x
p
x
v
(
x
)
d
d
v
f_{out}(x)=\int_{B_x} \sqrt{|g(x)|} k^{''}(x,v) f_{in}|_{exp_x v}(x)d^dv
fout(x)=∫Bx∣g(x)∣k′′(x,v)fin∣expxv(x)ddv
从这个阶段开始,我们尽量少一些抽象的概念,我们专注于在实际中遇到的群和表示。也就是说当
E
i
E_i
Ei是切丛和余切丛的张量积,形式如下:
T
M
⊗
n
⊗
T
∗
M
⊗
m
,
∀
n
,
m
≥
0
TM^{\otimes n}\otimes T^*M^{\otimes m}, \forall n,m \geq0
TM⊗n⊗T∗M⊗m,∀n,m≥0。为了证明这是充分的,并且和前面的工作产生联系,特殊正交群SO(3)的不可约表示记为j,维数为2j+1的自旋j不可约表示可以表示为向量表示空间V的张量积的Z-线性组合。
为了简化符号,我们将假设输入特征场和输出特征场是切丛的张量积的截面,而涉及到余切丛的情况可以用公式的直接概括来处理。在本例中,我们可以将输出特征场的显式表达式写为:
f
o
u
t
μ
1
μ
2
.
.
.
μ
N
o
f^{\mu_1 \mu_2 ... \mu_{N_o}}_{out}
foutμ1μ2...μNo,输出特征场也类似。变换性质(2)由核函数的张量和指标结构可以简洁的总结出来,我们把它写成
K
ν
1
ν
2
.
.
.
ν
N
i
μ
1
μ
2
.
.
.
μ
N
o
(
x
,
v
)
K^{\mu_1 \mu_2 ... \mu_{N_o}}_{\nu_1 \nu_2 ... \nu_{N_i}}(x,v)
Kν1ν2...νNiμ1μ2...μNo(x,v)。换句话说,对于一个固定点x及流行M在x点的切向量
v
∈
T
x
M
v \in T_xM
v∈TxM,我们总有
K
(
x
,
v
)
∈
(
T
x
M
)
⊗
N
o
⊗
(
T
x
∗
M
)
⊗
N
i
K(x,v) \in (T_xM)^{\otimes N_o} \otimes (T^*_xM)^{\otimes N_i}
K(x,v)∈(TxM)⊗No⊗(Tx∗M)⊗Ni。明确的说我们现在有:
f
o
u
t
μ
1
μ
2
.
.
.
μ
N
o
(
x
)
=
∫
B
x
∣
g
(
x
)
∣
K
ν
1
ν
2
.
.
.
ν
N
i
μ
1
μ
2
.
.
.
μ
N
o
(
x
,
v
)
f
i
n
ν
1
ν
2
.
.
.
ν
N
i
∣
e
x
p
x
(
v
)
(
x
)
d
d
v
f^{\mu_1\mu_2 ... \mu_{N_o}}_{out}(x)=\int_{B_x} \sqrt{|g(x)|}K^{\mu_1\mu_2...\mu_{N_o}}_{\nu_1\nu_2...\nu_{N_i}}(x,v)f^{\nu_1\nu_2...\nu_{N_i}}_{in}|_{exp_x(v)}(x)d^dv
foutμ1μ2...μNo(x)=∫Bx∣g(x)∣Kν1ν2...νNiμ1μ2...μNo(x,v)finν1ν2...νNi∣expx(v)(x)ddv
最好我们想施加权重共享条件,我们的表述如下:当(局部)输入信号沿着曲线平行运输时,输出信号也应等于前面运算结果沿曲线的平行运输。首先,我们需要解释我们所说的输入特征场沿着曲线的平行运输:
γ
~
:
[
0
,
1
]
→
M
\widetilde \gamma: [0,1] \rightarrow M
γ
:[0,1]→M满足
γ
~
(
0
)
=
x
\widetilde\gamma(0)=x
γ
(0)=x并且
γ
~
(
1
)
=
x
′
\widetilde\gamma(1)=x'
γ
(1)=x′。对于点x我们可以平行运输
f
i
n
∣
x
(
x
)
f_{in}|_x(x)
fin∣x(x)到
f
i
n
∣
γ
~
(
t
)
(
γ
~
(
t
)
)
f_{in}|_{\widetilde\gamma(t)}(\widetilde\gamma(t))
fin∣γ
(t)(γ
(t))。假设
y
=
e
x
p
x
v
y=exp_xv
y=expxv可以由x点出发的测地线流
γ
v
\gamma_v
γv连接。如图1所示,可以很清楚的知道如何定义
K
(
x
′
,
v
)
K(x',v)
K(x′,v),从而使权重共享条件为真。回想一下对于x点的一个切向量
v
∈
T
x
M
v \in T_xM
v∈TxM,
K
v
(
x
)
:
=
K
(
x
,
v
)
∈
(
T
x
M
)
⊗
N
o
⊗
(
T
x
∗
M
)
⊗
N
i
K_v(x):=K(x,v) \in (T_xM)^{\otimes N_o} \otimes (T^*_xM)^{\otimes N_i}
Kv(x):=K(x,v)∈(TxM)⊗No⊗(Tx∗M)⊗Ni。现在平行运输切向量v沿着
γ
~
\widetilde\gamma
γ
可以获得
K
v
(
γ
~
(
t
)
)
K_v(\widetilde\gamma(t))
Kv(γ
(t)),并定义如下;
K
(
γ
~
(
t
)
,
v
(
γ
~
(
t
)
)
)
:
=
K
v
(
γ
~
(
t
)
)
K(\widetilde\gamma(t),v(\widetilde\gamma(t))):=K_v(\widetilde\gamma(t))
K(γ
(t),v(γ
(t))):=Kv(γ
(t))
换句话说,我们同时平行运输对切向量的依赖关系。输出特征沿曲线的协变导数的消失,则仅仅来自体积形式的协变导数的消失和定义(5)。注意定义(5)意味着沿着积分路径,核函数 K ( γ ( t ) , v ) K(\gamma(t),v) K(γ(t),v)完全由沿着积分路径上任意点 t 0 t_0 t0的核函数 K ( γ ( t 0 ) , v ) K(\gamma(t_0),v) K(γ(t0),v)确定的。进一步假设我们在流形上选择一个参考点 x ∗ ∈ M x^*\in M x∗∈M。对于任意一点 y ∈ M y \in M y∈M,它通过唯一的测地线与 x ∗ x^* x∗相连接,相对于测地线进行平行运输,然后明确的在 x ∗ x^* x∗点与y点“共享”内核函数。另一方面,当y由一条以上的测地线连接时,广义方差就决定了对应于不同测地线的输出之间的关系。此外,这种协方差一般也适用于沿不同路径(不一定是测地线)进行运输。更精确地说,我们看到了不同的核函数如何通过输入和输出特征场的变换得到补偿,而这些核函数又是通过局部坐标的变换来关联的。因此,我们看到我们的简单和一般的假设实际上完全决定了卷积图的形式。
3.讨论
在指出了狭义相对论和广义相对论与等变CNNs的平行关系后,指出它们之间的关键区别也很重要。在CNN设置中,几何量总是固定的,我们不考虑度规的动力学。从这个观点来看,更接近的类比可能是研究固定弯曲时空中的场理论,在固定弯曲时空中物质场对时空几何的反作用力被忽略了。在未来的工作中,探索具有几何结构的等变CNNs将是非常有趣的。把不同层的方向看作时空的一部分,或者看作时间的方向,或者看作全息的方向。如果所有特征空间都具有相同的群表示,那么这种解释就特别相关了。
Cohen, T. S., Weiler, M., Kicanaoglu, B., and Welling, M. Gauge equivariant convolutional networks and the icosahedral cnn. arXiv preprint arXiv:1902.04615, 2019. ↩︎