Spectral Networks and Deep Locally Connected Networks on Graphs翻译

最新推荐文章于 2024-02-27 22:24:14 发布

WangKingJ

最新推荐文章于 2024-02-27 22:24:14 发布

阅读量833

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/WangKingJ/article/details/104219271

版权

ML 专栏收录该内容

23 篇文章 3 订阅

订阅专栏

Aabstract

卷积神经网络在图像和音频识别任务中是非常有效的架构，因为它能够利用信号类在其域中的局部平移不变性。在本文中，我们考虑在没有平移作用的情况下，CNNs可以推广到一般域上定义的信号. 特别地，我们提出了两种结构，一种基于域的层次聚类，另一种基于图拉普拉斯谱。我们通过实验证明，对于低维图，学习卷积层是可能的，它有许多与输入大小无关的参数，从而得到高效的深度架构。

1 Introduction

卷积神经网络(cnn)极其成功的机器学习问题,底层数据表示的坐标网格结构(在1、2和3维)和数据研究在这些坐标平移equivariance /不变性对这个网格。语音[11]、图像[14,20,22]或视频[23,18]都属于这一类。
在一个规则的网格中，CNN能够利用几个结构很好地结合在一起，从而大大减少系统中的参数数量:

平移结构，允许使用过滤器，而不是一般的线性映射，因此权重共享。
网格上的度量，允许紧凑支持的过滤器，其支持通常比输入信号的尺寸小得多。
网格的多尺度二元聚类，允许子采样，通过步长卷积和池化实现。

如果在d维网格上有n个输入坐标，则有m个输出的全连通层，需要n*m个参数，在典型的运行状态下，其复杂度为O(n^2)参数。使用任意的过滤器而不是通用的全连接层可以将每个特征图的复杂度降低到O(n)个参数，就像通过构建“局部连接”网络来使用度量结构一样[8,17]。结合使用这两种方法给出了O (k·S)参数，k是特征图的数量和S的支持过滤器,因此学习复杂性不依赖于n。最后，使用多尺度二元聚类使每个继承层使用比 $2^d$ 少的(空间)坐标/过滤器。
然而，在许多情况下，人们可能会遇到在坐标上定义的数据，而坐标上缺少一些或全部上述几何特性。例如，定义在三维网格上的数据，如表面张力或温度，来自气象站网络的测量，或来自社交网络或协同过滤的数据，都是无法应用标准卷积网络的结构化输入的例子。另一个相关的例子是由深度神经网络产生的中间表示。虽然空间卷积结构可以在多个层次上进行利用，但典型的CNN架构在“feature”维上不采用任何几何形式，导致4-D张量在空间坐标上仅为卷积。
图提供了一个自然的框架来概括低维网格结构，并扩展了卷积的概念。在这项工作中，我们将在图上讨论深层神经网络，而不是规则的网络上。我们提出了两种不同的结构。第一个是，我们展示了一个可以将属性(2)和(3)扩展到一般图的结构，并使用它们来定义“局部”连接和池化层，这需要O(n)参数而不是 $O(n^2)$ 。我们称之为空间结构。另一种结构，我们称之为谱结构，它利用了傅里叶域中卷积的性质。在 $R^d$ ，卷积是通过傅里叶基 $exp (iω·t)，ω,t∈\R^d$ 斜向移动的线性操作。一个可能会延长旋转一般图形通过寻找相应的“傅里叶”的基础上。这种等价性是通过图拉普拉斯算子给出的，该算子对图[1]进行调和分析。光谱构建需要每个特征图最多O(n)个参数，而且还支持参数数量与输入维n无关的构建。这些构建允许有效的正向传播，可应用于具有非常大数量坐标的数据集。

1.1 contributions

我们的主要贡献总结如下:

我们证明，从输入域的弱几何结构中可以使用O(n)参数获得有效的结构，我们在低维图数据集上验证了这一点。
介绍了一种利用O(1)参数进行经验验证的构造方法，并讨论了它与图上的调和分析问题之间的联系。

2 spatial construction

CNN对一般图形最直接的概括是考虑多尺度、分层次、感受野，如[3]中所述。为此，将用加权图 $G = (Ω, w)$ 代替网格，其中 $\Omega$ 是大小为m的离散集，W是 $m\times m$ 的对称非负矩阵。

2.1 Locality via W

局部性的概念在图的上下文中很容易推广。实际上，图中的权重决定了局部性的概念。例如,一个简单的方式来定义W的邻居是设定一个阈值δ> 0和把邻居设置为
在这里插入图片描述
我们可以将注意力限制在稀疏的“过滤器”上，感受野由这些邻域给出以获得局部连接的网络，从而将一个过滤器层中的参数的数量减少到 $\cdot n)$ 。S是平均的邻居大小。

2.2 Multiresolution Analysis on Graphs

CNNs通过池化和下采样层来减小网格的大小。由于网格的自然多尺度聚类，这些层也是可能的：它们在一个集群上输入所有的特征图。并为该集群输出单个的特征。在网格中，二元聚类在度量和拉普拉斯行列式方面(以及平移结构)表现得很好。有大量关于在图上形成多尺度集群的文献，例如【16,25,6,13】。发现多尺度的集群依然是一个开放的研究领域w.r.t.，它被证明在图上的拉普拉斯 w.r.t 表现良好。在这项工作中，我们将使用一种简单的凝聚方法。
Figure 1 举例说明具有相应邻域的图的多分辨率聚类。

在这里插入图片描述
Figure 1:无向图 $G=(\Omega_0,W)$ 是两层的集群。原始的点是用灰色画的。

2.3 Deep Locally Connected Networks

空间构建从图的多尺度聚类开始，类似于[3]中，我们考虑K个尺度。我们设置 $Ω_0 =Ω$ ,每个 $k = 1 . . . K$ ,我们定义 $Ω_{k}$ ，在 $d_k$ 个集群中的 $\Omega_{k-1}$ 的分区，一个集合的每个元素周围的邻居 $Ω_{k−1}$ :
在这里插入图片描述
有了这些，我们现在可以定义网络的第h层。我们假设没有普通的损失，输入信号是一个定义在 $\Omega_0$ 上的真正的信号，我们通过 $f_k$ 表示在每一层k上的“过滤器”的数量。每一层的网络将通过 $\Omega_{k-1}$ 的 $f_{k-1}$ 维的信号索引转变为 $\Omega_{k}$ 的 $f_{k}$ 维的信号索引,因此权衡新创建的特征坐标的空间分辨率。
更正式的讲，如果 $x_k=(x_{k,i};i=1...f_{k-1})$ 等于 $d_{k-1} \times f_{k-1}$ 是第 $k$ 层的输入，它的输出 $x_{k+1}$ 被定义为
在这里插入图片描述
$F_{k,i,j}$ 是一个在 $\mathcal{N_k}$ 位置上非零的 $d_{k-1}\times d_{k-1}$ 的稀疏矩阵， $L_k$ 输出在 $\Omega_k$ 上的每一个集群的池化操作的结果。这些结构在Figure 2 中被解释。
在当前的代码中，我们使用下面的结构来构建 $\Omega_k$ 和 $N_k$
在这里插入图片描述

Figure 2：如2.1描述的空间结构，K=2。出于解释的目的，池化操作与过滤阶段相同。每一层的变换都损失了空间分辨率，但增加了过滤器的数量。
$\Omega_k$ 是一个覆盖在 $W_k$ 上的 $\epsilon$ 。这只是许多执行分层凝聚聚类策略中的一种。关于这个问题的详细叙述，我们请读者查阅
[10]。
如果 $S_k$ 是邻居 $N_k$ 的平均支持度，我们从(2.1)中可知，第k层需要学习的参数数量为
在这里插入图片描述
实际上，我们有 $S_k \cdot|\Omega_k| \approx \alpha\cdot|\Omega_{k-1}|$ ，其中a为过采样因子，一般为 $\alpha \in(1,4)$ 。空间构造可能看起来很简单，但它的优势在于，它需要图上相对较弱的正则性假设。即使没有很好的全局嵌入，低维的图也有局部的邻域特征。但是，在这种结构下，没有简单的方法可以在图的不同位置之间进行权值共享。一种可能的选择是考虑将图的全局嵌入到低维空间中，这种情况在高维数据中很少见。

3 Spectral Construction

图的全局结构可以利用图的拉普拉斯的频谱来生成卷积操作。

3.1 Harmonic Analysis on Weighted Graphs

组合拉普拉斯算子 $L = D - W$ 或图拉普拉斯算子 $L=I-D^{-1/2}WD^{-1/2}$ 是拉普拉斯算子在网格上的广义化；频率和相对于W的平滑度通过这些算子相互联系[2,25]。为了简单起见，这里我们使用组合拉普拉斯行列式。如果 $x$ 是一个m维的向量，则在节点 $i$ 处的一个平滑函数的定义为
在这里插入图片描述
和

根据这个定义，最平滑的向量是一个常数:

每个继承

是L的一个特征向量，特征值 $\lambda_i$ 允许平滑向量 $x$ 从 $v_0,...v_{m-1}]$ 中直接理解 $x$ 的回归系数，相当于在网格中定义的信号的傅里叶系数。因此，在网格中，拉普拉斯变换的特征向量是傅里叶向量，拉普拉斯变换频谱上的对角算子调节它们的操作数的平滑性。此外，使用这些对角运算将过滤器的参数数量从 $m^2$ 减少到 $m$ 。
上述三个结构都通过在 $d$ 维网络上的拉普拉斯算子联系在一起 $\Delta x=\sum^d_{i=1}\frac{\partial^2x}{\partial u_i^2}:$

过滤器是对拉普拉斯算子∆的特征值的乘法。
相对于网络矩阵光滑的函数在∆的特征向量的基中系数迅速衰减。
二次采样拉普拉斯的特征向量为∆的低频特征向量。

3.2 Extending Convolutions via the Laplacian Spectrum

如 section 2.3中所示，令 $W$ 为用 $\Omega$ 表示的索引集的加权图，令V为图拉普拉斯 $L$ 的特征向量，按特征值排序。给出一个加权图，我们可以通过对权值的频谱进行操作来推广卷积网络，该谱由其图拉普拉斯的特征向量给出。
为了简单起见，让我们首先描述一个结构，每层 $k = 1 . . . K$ 转换大小为 $|\Omega|\times f_{k-1}$ 的输入向量 $x_k$ 到一个输出大小为 $|\Omega|\times f_{k}$ 的输出向量 $x_{k+1}$ ，也就是说，没有空间二次抽样:
在这里插入图片描述
$F_{k,i,j}$ 是一个对称的矩阵， $h$ 是一个非线性的真值。
通常，只有拉普拉斯行列式的前 $d$ 个特征向量在实践中有用，因为它们承载了图的光滑几何。截止频率 $d$ 取决于图的内在规律性和样本量。在这种情况下，我们可以用 $V_a$ 代替(3.2) $V$ ，保持 $V$ 的前 $d$ 列即可得到。
如果图有一个基本群不变性，这种构造可以发现它；最好的例子就是标准的CNN；但是，在许多情况下，图没有组结构，或者组结构不使用拉普拉斯变换。因此，我们不能认为每个过滤器都是通过 $\Omega$ 传递一个模板并记录模板与该位置的相关性。 $\Omega$ 在某种程度上可能不是同质的，这使得这是有意义的，正如我们将在第5.1节的例子中看到的。

假设只保留拉普拉斯矩阵的d个特征向量，由式(3.2)可知，各层需要 $f_k \cdot f_{k-1}\cdot d=O(|\Omega|)$ 的训练参数。我们将在section 3.4中看到，如何将图形的全局和局部正则性结合起来，生成带有O(1)参数的层，即可学习参数的数不依赖于输入的大小。
这种结构可能会受到这样一个事实的影响，即大多数图只有在谱的最顶端才有有意义的特征向量。即使个别高频特征向量不是均值，一组高频特征向量也可能包含有意义的信息。然而，这种构造可能无法访问此信息，因为它在最高频时几乎是对角的。

最后，在应用空间非线性的同时，如何有效地进行前向推导和反向传递都不是很明显，因为我们必须进行 $V$ 和 $V^T$ 的代价高昂的乘法。在光谱方面如何处理标准非线性并不明显。但是，在4.1中有所解释。

3.3 Rediscovering standard CNN’s

在这种结构中，一个简单的、在某种意义上具有普遍性的权重矩阵的选择就是数据的协方差矩阵。设 $X=(x_k)_k$ 是输入数据的分布，其中 $x_k \in \R^n$ ，如果每个坐标 $j = 1 . . . n$ 有相同的方差，
在这里插入图片描述
拉普拉斯算子上的对角算子简单地缩放了 $X$ 的主分量，虽然这看起来微不足道，但众所周知，固定大小的图像集的主成分(实验上)对应于由频率组织的离散余弦变换基。这可以通过注意到图像是平移不变的来解释。因此有协方差的操作
在这里插入图片描述
满足 $\sum(j,j^{'})=\sum(j-j^{'})$ ，因此它通过傅里叶基对角化。此外，众所周知，自然图像显示功率谱 $E(|\widehat{x}\xi|^{2})∼\xi^2$ ，因为附近的像素比远处的像素相关性更强。结果表明，协方差的主成分从低到高基本上是有序的，这与傅里叶基的标准群结构是一致的。
其结果是，当应用于自然图像时，3.2中的结构，利用协方差作为相似性核来构造一个标准的卷积网络，没有任何先验知识。实际上， $E q (3.2)$ 中的线性操作 $VF_{i,j}V^T$ 在傅里叶基中是通过前面的参数对角化的，因此是平移不变的，所以是“经典的”卷积。此外，section 4.1还解释了如何通过去掉拉普拉斯变换频谱的最后一部分来获得空间子采样，从而产生最大池化，并最终形成深度卷积网络。

3.4 O(1) construction with smooth spectral multipliers

在标准网格中，我们不需要为每个傅里叶函数指定一个参数，因为滤波器在空间中得到了紧密的支持，但是在(3.2)中，每个滤波器对其作用的每个特征向量都需要一个参数。即使在这个结构中过滤器在空间上得到了紧密的支持，我们仍然不会得到每个过滤器少于O(n)个参数，因为每个位置的空间响应是不同的。
解决这个问题的一种可能性是概括网格的二元性。在欧几里德网格上，将空间域函数的衰减转换为傅里叶域的光滑性，反之亦然。结果表明，空间局部的函数 $x$ 具有平滑的频率响应 $\widehat{x}=V^Tx$ 。在这种情况下，拉普拉斯矩阵的特征向量可以认为是排列在与原始空间网格同构的网格上。
这表明，为了学习一个layer，它不仅有跨位置共享的特性，还可以很好地本地化在原始域中。我们可以学习平滑的光谱乘子。平滑度可以通过只学习一组次采样的频率乘法器和使用插值核来获得其余部分，如三次样条。然而。平滑的概念需要光谱坐标域中的几何图形。通过定义对偶图 $\widetilde{W}$ 可以得到，如(3.1)所示。如前所述，在规则网格上，这种几何结构由频率的概念给出，但不能直接推广到其他图上。
一个特别简单的选择是选择一个一维的排列，通过根据特征值对特征向量排序得到。在这个设置中，每个过滤器 $F_{k,i,j}$ (大小不超过 $\Omega$ )的对角线被参数化，通过下式
在这里插入图片描述
其中 $\mathcal{K}$ 是 $d\times q_k$ 固定的三次样条的核， $a_{k,i,j}$ 是 $q_k$ 的样条系数。如果你想要有持续空间支持的过滤器（ie，独立于输入大小| $\Omega$ |），接下来我们可以在光谱域中选择一个采样步骤 $\alpha∼|\Omega|$ ，它的结果是每个过滤器的系数 $a_{k,i,j}$ 的一个常数 $q_k∼|\Omega|\cdot \alpha^{-1}=O(1)$ 。
尽管section 5的结果似乎表明，由拉普拉斯变换谱给出的一维排列在创建空间局域滤波器方面是有效的，一个基础的问题是如何去定义一个捕获空间坐标几何形状的对偶图，一种可能的算法策略是考虑一个由空间局部信号组成的输入分布 $X=(x_k)_k$ ，通过在光谱域中测量相似性 $\widehat{X}=V^TX$ 去构建一个对偶图 $\widetilde{W}$ 。例如，相似性可以用下式测量在这里插入图片描述

4 Relationship with previous work

有大量关于在图上构建小波的文献，例如[21,7,4,5,9]。在神经网络的语言中，网格上的小波基是一个具有一定可证明的正则性的线性自编码器(特别是，当对各种光滑函数进行编码时，保证了稀疏性)。向前传播的一个经典的小波变换非常类似于神经网络中的前向传播，除此之外，每一层只有一个过滤器的映射(它通常是相同的过滤器在每一层)，保存每一层的输出，而不仅仅是最后一层的输出。经典地，滤波器不是学习的，而是为了便于正则性证明而构造的。
在图的情况下，目标是一样的，除了网格上的平滑被图形上的平滑所代替。在经典情况下，大多数的研究工作都试图基于图显式地构造小波(也就是说，不需要学习)，从而使相应的自编码器具有正确的稀疏性。在这项工作和最近的工作[21]中，“滤波器”受到结构的约束，使其具有小波的某些正则性。但是他们也接受了训练，因此他们适合于独立于(但也许有关)图上的平滑度的任务。尽管[21]仍然构建了一个(稀疏的)线性自编码器来保持基本的小波变换设置，这项工作的重点是非线性结构；特别是，试图建立类似CNN的结构。
与当前工作相关的另一项工作是从数据中发现网格拓扑。在[19]中，作者实证地证实了section 3.3的说法，通过二阶统计可以恢复二维网格结构。在[3,12]中，作者估计了特征之间的相似性来构建局部连接网络。

4.1 Multigrid

我们可以改进这两种结构，并在一定程度上将它们统一起来，使用多尺度的图聚类来很好地配合拉普拉斯。如前所述，在网格的情况下，标准的并矢立方体具有将网格上的傅里叶函数细分为较粗网格的特性，这与在较粗网格上找到傅里叶函数是相同的。该特性消除了将光谱结构映射到每一层的最细网格上进行非线性处理的必要性；并允许我们(通过插值)将空间结构中更深层次的局部滤波器解释为低频。
这种聚类是求解离散PDE(以及一般线性系统)的多重网格方法的基础[24]。已经有几篇论文对多重网格方法进行了扩展，尤其是其中的一些，与多重网格方法相关的多尺度聚类(s)，在比常规网格更一般的设置中，如本文所述的情况参见[16,15]，一般代数多重网格方法参见[24]。在这项工作中，为了简单起见，我们在空间边结构中使用了一种不保证遵循原始图的拉普拉斯变换的朴素多尺度聚类，并且在谱结构中没有明确的空间聚类。

5 Numerical Experiments

前面的构造是在MNIST数据集的两种变体上进行测试的。在第一种情况下，我们对正常的 $28\times28$ 网格进行子采样以获得400个坐标。这些坐标仍然是二维结构，但是不可能使用标准的卷积。然后，我们将 $d = 4096$ 个点放置在3-D单位球面上，并将随机MNIST图像投射到这组点上，从而得到一个数据集，如Section 5.2所述。
在所有的实验中，我们使用修正的线性单元作为非线性和最大池。我们用交叉熵损失训练模型，使用0.1的固定学习率和0.9的动量。
在这里插入图片描述

5.1 Subsampled MNIST

我们首先将section 3.2和section 2.3中的结构应用于次采样MNIST数据集。Figure 3显示了输入信号的示例，Figure 4，5分别显示了由图和图拉普拉斯的一些特征函数构造的层次聚类。Table 1中报告了各种图结构的性能。作为基线，我们计算了标准的最近邻分类器，它的性能略低于完整MNIST数据集(2.8%)。一个两层全连接的神经网络将误差降低到1.8%。数据的几何结构可以通过CNN的图结构来实现。适应于图结构的感受野优于全链接网络。特别地，两个过滤器和最大池化定义了一个有效地将信息聚集到最终分类器的网络。光谱结构在这个数据集上的表现稍差一些。我们考虑了 $N / 2 = 200$ 的频率截止。但是，section 3.4中描述的频率平滑架构，它包含最小数量的参数，优于常规光谱结构。
这些结果可以解释如下。MNIST数字的特征是定位有方向的笔画，这要求尺寸具有良好的空间定位。局部感受野被构造来明确地满足这一约束，而在光谱构造中，度量值没有被强制成为空间地局域性。在滤波器的频谱上增加平滑度约束可以改善分类结果，这些过滤器被使用以获得更好的空间定位。
如Figure 6所示，我们验证了局部感受野编码了不同空间邻域的不同模板。因为没有全局性的结构把它们联系在一起。另一方面，光谱结构具有生成局部度量的能力，这种能力可以在整个图上进行泛化。当光谱乘子不受约束时，所得到的滤波器趋向于空间地非定域化的。如图（c）-（d）所示。这符合傅里叶分析对局部现象编码的基本限制。然而。我们在panel （e）-（f）中观察到，对图的频谱进行简单的平滑，可以恢复某种形式的空间定位，并创建过滤器，从而泛化不同的空间位置，这正是卷积运算符所期望的。

5.2 MNIST on the sphere

我们在本节中测试另一个低维图上的Graph CNN结构。在本例中，我们将MNIST数字移到球体上。数据集的结构如下。首先，我们从单位球面 $S^2\sub \R^3$ 采样4096个随机点 $S=\{{s_j}\}_{j\le4096}$ 。然后我们考虑一个 $R^3$ 的正交基 $E = (e 1, e 2, e 3)$ ，其中 $e_1||=1,||e_2||=2,||e_3||=3$ 和一个随机协方差算子 $\sum=(E+W)^T(E+W)$ ，其中 $W$ 是一个方差 $\sigma^2<1$ 的高斯iid矩阵，对于每一个来自于原始MINST数据集信号 $x_i$ ，我们从前面的分布中采样一个协方差算子 $\sum_i$ ，并且考虑它的PCA基 $U_i$ 。这个基定义了一个视点和平面旋转，在这之中我们使用双三次插值投影 $x_i$ 到 $S$ 上。Figure 7显示了投影数字结果的示例。由于数字“6”和“9”是等效的模转动，所以我们将“9”从数据集中删除。Figure 8显示了图拉普拉斯的两个特征向量。
在这里插入图片描述

我们首先考虑 $\sigma^2=0.2$ 的“mild”旋转。然而，这种旋转的影响是不可忽视的。实际上，Table 2显示最近邻分类器的性能比前一个示例差很多。所有我们考虑的神经网络结构都比这个基本分类器有了显著的改进。此外，我们观察到这两个卷积结构都与参数少得多的全连接结构相匹配(但在这种情况下，并没有提高其性能)。Figure 9展示了使用不同结构学习的过滤器。再一次，我们验证了平滑的谱结构不断提高性能，学习空间局部化过滤器，即使是使用简单的一维特征向量，它能够在图的不同位置检测相似的特征(panels (e)-(f))。
最后，考虑匀速旋转的情况，此时基 $U_i$ 是 $R^3$ 的随机基。在这种情况下，通过检查最近邻分类器的性能可以看出，类内的可变性要严重得多。所有前面描述的神经网络体系结构都比这个分类器有了显著的改进，尽管其性能明显低于轻度旋转的情况。在这种情况下，有效的表示需要是完全的旋转平移不变量。因为这是非交换组，更深层的架构可能比这里考虑的模型执行得更好。
在这里插入图片描述

6 Conclusion

使用基于图的卷积架构的类似物可以在不恶化(通常是改善)测试误差的情况下，极大地减少神经网络中的参数个数，同时提供更快的正向传播。这些方法可以扩展到具有大量具有局部性概念的坐标的数据。

这里有许多事情要做。我们猜想，通过更仔细的训练和更深层次的网络，我们可以不断地改进“manifold”图上的全连接网络，比如采样球面。
在这里插入图片描述
此外，我们打算将这些技术应用于不那么复杂的问题，例如，在有数据和坐标两个聚类的的netfix上的推荐问题。最后，在特征向量上的简单排序的平滑性导致改进的结果和局部化的滤波器，这一事实表明，这是可能的“二元”参数为O(1)的结构每个过滤器比网格更具有通用性。