几何深度学习:超越欧几里得的数据
文章来源IEEE Signal Processing Magazine (1区) 出版日期2017年7月
Michael M. Bronstein, Joan Bruna, Yann LeCun,
Arthur Szlam, and Pierre Vandergheynst
前言
许多科学领域研究数据的基本结构是非欧几里得的。例如计算社会科学中的社交网络、通信中的传感器网络、脑成像中的功能网络、遗传学中的调节网络和计算机图形学中的网格曲面。在许多应用中,此类几何数据既庞大又复杂(在社交网络中,规模达数十亿),是机器学习技术的目标。特别是,我们希望使用深度神经网络,它最近已经被证明是一种解决计算机视觉、自然语言处理和音频分析等广泛问题的强大的工具。然而,这些工具应用在欧几里得或类网格结构的数据上,以及将这些结构的不变性建立在用于建模它们的网络中,此种情况下最为成功。
几何深度学习是试图将(结构化的)深度神经模型推广到非欧几里得领域(如图和流形)的新兴技术的总称。本文的目的是概述几何深度学习问题的不同实例,并提出在这个新兴领域中可用的解决方案、关键困难、应用和未来的研究方向。
一、深度学习概述
深度学习是指通过分层或多层的方式从较简单的概念中构建复杂的概念来学习这些复杂的概念。人工神经网络是这种深层多层层次结构的普遍实现。在过去的几年中,基于GPU的计算机不断增长的计算能力以及大型训练数据集的可用性已使成功训练具有多个层次和自由度的神经网络成为可能[1]。这使得从语音识别[2][3]和机器翻译[4]到图像分析和计算机视觉[5]-[11]的各种任务都有了质的突破(其他有关深度学习成功应用的示例,参阅[12][13])。如今,深度学习已经成熟为一项广泛应用于商业应用的技术,包括Apple iPhone中的Siri语音识别,Google文本翻译以及用于自动驾驶汽车的Mobileye视觉技术。
深度神经网络成功的一个关键原因是它们能够利用数据的统计特性,比如通过局部统计来呈现在自然图像、视频和演讲[14][15]中的平稳性和组合性。这些统计特性已经与物理学有关[16],并在卷积神经网络(CNNs)的特定类别中正式化[17][18][19]。在图像分析应用程序中,可以将图像视为在欧氏空间(平面)上以网格采样的函数。在这种情况下,平稳性归因于平移不变性,局部性归因于局部连通性,而组合性则归因于网格的多分辨率结构。这些特性被卷积结构获取[20],该结构由交替的卷积层和下采样(池化)层构成。使用卷积具有双重效果。首先,它允许提取跨图像域共享的局部特征,相对于一般的深层架构,大大减少了网络中的参数数量(因此也减少了过拟合的风险),而不牺牲网络的表达能力。其次,卷积架构本身对数据施加了一些先验,这些先验特别适合于自然图像[17-19][21]。
虽然深度学习模型在处理诸如语音,图像或视频之类的信号时特别成功,但其中存在潜在的欧几里得结构,但近来人们对尝试将学习应用于非欧几里得几何数据的兴趣日益浓厚。这类数据出现在众多应用中。例如,在社交网络中,可以将用户的特征建模为社交图的顶点上的信号[22]。传感器网络是分布式互连传感器的图形模型,其读数被建模为顶点上与时间相关的信号。在遗传学中,基因表达数据被建模为在调节网络中定义的信号[23]。在神经科学中,图模型用于表示大脑的解剖结构和功能结构。在计算机图形和视觉中,将3D对象建模为具有诸如颜色纹理之类的特性的黎曼流形(表面)。
这种数据的非欧几里得性质意味着不存在诸如全局参数化,通用坐标系,向量空间结构或平移不变性这样熟悉的属性。因此,在非欧几里得域上甚至没有很好地定义在欧几里得情况下理所当然的诸如卷积之类的基本运算。本文的目的是展示将成功的深度学习方法(例如卷积神经网络)的关键要素转换为非欧几里得数据的不同方法.
二、几何学习问题
广义上讲,我们可以区分两类几何学习问题。在第一类问题中,目标是表征数据的结构。第二类问题涉及分析在给定非欧氏域上定义的函数。这两个类是相关的,因为理解定义在一个域中的函数的属性可以传达关于这个域中的特定信息,反之亦然,域的结构会给它的函数施加特定的属性。
1.域的结构
作为第一类问题的示例,假定给定一组数据点,这些数据点具有一些嵌入到高维欧氏空间中的底层低维结构。恢复较低维度的结构通常被称为流形学习或非线性降维,这是无监督学习的一个实例(注意,在这种情况下流形的概念可以比一个经典的光滑流形更一般见[24][25])。许多非线性降维方法包括两个步骤:首先,从构造数据点的局部亲和力表示(通常是稀疏连通图)开始。第二,将数据点嵌入到低维空间中,以保留原始亲和力的某些标准。例如,频谱嵌入倾向于将点之间具有许多连接的点映射到附近的位置,并且多维缩放MDS类型的方法尝试保留全局信息,例如图形测地距离。流形学习的例子包括不同类型的多维缩放(MDS)[26],局部线性嵌入[27],随机邻居嵌入[28],频谱嵌入(例如拉普拉斯特征图[29])和扩散映射[30]和深层模型[31]。除了嵌入顶点外,还可以通过将图结构分解为称为子图[36]或小图[37]的小子图来对其进行处理。最近的方法[32]-[34]尝试将成功的词嵌入模型[35]应用于图。
在某些情况下,数据在一开始就以流形或图形表示,而构建上述亲和结构的第一步是不必要的。例如,在计算机图形和视觉应用中,可以通过构造捕获例如图像的局部几何描述符来分析表示为网格的3D形状,例如弯曲特性[38][39]。在社会网络分析应用中,表示人与人之间社会关系的社会图的拓扑结构具有重要的洞察力,例如,可以对顶点进行分类并检测社区 [40]。在自然语言处理中,语料库中的单词可以用共现图co-occurrence graph表示,如果两个单词经常出现在彼此附近,则可以将它们连接起来[41]。
2.域中的数据
我们的第二类问题涉及分析在给定的非欧氏域上定义的函数。我们可以将此类问题进一步细分为两个子类:域固定的问题和给出多个域的问题。例如,假设已知社交网络用户的地理坐标,在社交图的顶点上表示为时间相关的信号。基于位置的社交网络中的一个重要应用是根据用户的过去行为以及他或她朋友的行为来预测用户的位置[42]。在此问题中,假定域(社会图)是固定的;特别是,为了定义类似于谱域中卷积的运算,可以在此设置中应用,先前已在杂志IEEE Signal Processing Magazine[43]中进行过回顾的图形信号处理方法。反过来,这又允许将CNN模型泛化为图形[44][45]。在计算机图形学和视觉应用中,寻找形状之间的相似性和对应关系是第二个子类的例子。每个形状被建模为一个流形,一个人必须与多个这样的域一起工作。在这种情况下,使用局部图表[46]-[48]作为卷积在空间域的推广似乎更合适。
3.历史概述
这篇综述的主要重点是第二类问题,在非欧氏域上学习函数,尤其是尝试将流行的CNN推广到此类情况。最初尝试将神经网络推广到我们知道的图形是由Scarselli等人完成的。文献[49]中提出了一种将递归神经网络和随机游走模型相结合的方案。这种方法几乎没有引起注意,由于近来对深度学习的新兴趣,在[50][51]中以现代形式重新出现。基于图的CNN的第一个公式应归功于Bruna等人[52],他们在谱域中使用了卷积的定义。他们的论文虽然在概念上很重要,但存在严重的计算缺陷,不能成为真正有用的方法。这些缺点随后在Henaff[44]和Defferrard等[45]人的后续工作中得到了解决。
在计算机视觉和图形社区的平行努力中,Masci等人[47]显示了在网状表面上的第一个CNN模型,利用基于局部固有patch的卷积运算的空间定义。在其他应用程序中,此类模型在寻找可变形3D形状之间的对应关系方面表现出了最先进的性能。后续工作提出了在点云[53][48]和一般图[54]上构建不同内在patch的方法。
在过去的一年中,人们对图或流形上的深度学习的兴趣激增,导致了多种尝试将这些方法应用于从生物化学[55]到推荐系统[56]的广泛问题。由于此类应用程序起源于通常不会交叉使用的不同领域,因此该领域的出版物往往使用不同的术语和符号,这使得新手很难掌握其基础和当前的最新技术。我们相信我们的论文是在正确的时间尝试将其系统化并将一些规则带入此领域。
4.信号处理,微分几何,图论
本文所讨论的几何深度学习框架是基于微分几何和图论的概念。不幸的是,这些主题在信号处理领域还不够为人所知,而且据我们所知,没有入门级的参考资料以一种通用的方式来处理这些如此不同的结构。我们的目标之一是尽可能从传统信号处理角度出发提供对这些模型的概述。
欧几里得学习设置和非欧几里得学习设置之间的一个关键区别是缺乏卷积等传统算子。在图和流形上非欧几里得的卷积结构在类似卷积的操作表示的方式上是不同的。一种方法是利用卷积定理的类比,在谱域中定义卷积。另一种方法是将卷积看作是空间域中的模板匹配。然而,这种区别远非明确:正如我们将看到的,一些方法从光谱域得出它们的公式,基本上归结为在空间域应用滤波器。利用空间-频率分析技术,如小波或加窗傅里叶变换,将这两种方法结合起来也是可能的。我们提供了侧边栏来说明重要的概念,表1列出了整篇文章中使用的符号。可以在geometricdeeplearning.com上获得其他资料、数据和代码示例。表2总结了本文中介绍的几何深度学习方法。
三、欧几里得域的深度学习
1、几何先验
考虑一个紧凑的d维欧式域,其中定义了一个平方可积的函数
。(例如在图像分析应用中,图像可以被认为是单位平方上的函数
),我们考虑一个通用的监督学习设置,其中在训练集观察到未知函数
的数据
(1)
在有监督分类设置中,目标空间Y可以被认为是离散的,|Y |是种类的数量。在多目标分类中,可以用K维单纯形替换Y,表示后验概率p (y| x)。在回归任务中我们可以考虑。在绝大多数计算机视觉和语音分析任务中,对于未知的函数y有几个重要的预先假设。我们将在下面几节中看到,CNN架构有效地利用了这些假设。
2、平稳性
让
(2)
作为一个作用于函数的平移算子(我们假设周期边界条件来保证这个算子定义在中)。我们的第一个假设是函数y对于平移是不变的或相等变化的,其取决于任务。在前一种情况下,对于任意的且有(平移不变性),这在分类任务中是典型的情况。在后者中,当模型的输出是一个可以进行平移的空间,就可以很好的定义(平移等变性)(例如,在目标定位问题,语义分割,或运动估计等问题中)。不变性的定义不应该与信号处理中的平移不变系统的传统概念混淆,在我们的语言中,它对应的是平移等变化(因为只要输入转换,输出就转换)。
3、局部变形和尺度分离
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
许多科学领域研究数据的基本结构是非欧几里得的。例如计算社会科学中的社交网络、通信中的传感器网络、脑成像中的功能网络、遗传学中的调节网络和计算机图形学中的网格曲面。在许多应用中,此类几何数据既庞大又复杂(在社交网络中,规模达数十亿),是机器学习技术的目标。特别是,我们希望使用深度神经网络,它最近已经被证明是一种解决计算机视觉、自然语言处理和音频分析等广泛问题的强大的工具。然而,这些工具应用在欧几里得或类网格结构的数据上,以及将这些结构的不变性建立在用于建模它们的网络中,此种情况下最为成功。
几何深度学习是试图将(结构化的)深度神经模型推广到非欧几里得领域(如图和流形)的新兴技术的总称。本文的目的是概述几何深度学习问题的不同实例,并提出在这个新兴领域中可用的解决方案、关键困难、应用和未来的研究方向。