顶会宠儿:几何深度学习!将几何先验知识融入深度学习模型!读完这篇,小白也可以了解GDL!

简介

几何深度学习是一种新兴的机器学习领域,它结合了深度学习的强大功能与几何学的严谨结构。这一领域的核心思想是通过深度学习模型来理解和利用数据中的几何结构,从而在各种复杂任务中实现更优的性能。几何深度学习不仅仅关注数据的表征,更重视数据内在的几何关系和先验,如对称性、不变性和流形等。

理论基础

几何深度学习的理论基础源自于19世纪的埃尔朗根纲领,该纲领由德国数学家克莱因提出,主张将几何学定义为研究在某一类变换下保持不变的性质。在现代深度学习中,这一纲领被赋予了新的生命,研究者们试图将这种对称性和不变性的思想应用于深度学习模型中,以期在处理复杂数据时能够更好地捕捉其内在的几何特性。

计算机视觉的最新进展,主要来自于新颖的深度学习方法,以及基于大量数据来执行特定任务的分层机器学习模型,随之而来的性能提升,引发了其他科学领域类似应用的淘金热。

随着深度学习技术的发展,人们已经不满足于将深度学习应用于传统的图像、声音、文本等数据上,而是对更一般的几何对象如网络、空间点云、曲面等应用深度学习算法,这一领域被称为几何深度学习(Geometric deep learning)。

下文中,我们将解释GDL中「几何」的含义,同时会将其与其他神经网络结构进行比较。最后,我们还会带大家深入了解它擅长的多种任务,以及最新前沿应用。 放心,即使没有太多的基础,读完这篇文章后,也能充分体会到GDL的魅力。

深度学习巨头LeCun牵头的几何深度学习在讲啥? 

2016年,Bronstein的一篇名为《Geometric deep learning: going beyond Euclidean data》的文章来势汹汹,该文的后两位作者分别是Facebook前人工智能团队博士后成员Joan Bruna和现人工智能负责人Yann LeCun,这也算得上是全明星阵容,因此这篇文章的含金量和参考性就得以保证。

在这篇文章中,研究者首次引入了几何深度学习(GDL)一词。

 文章表示,几何深度学习(GDL)定义了新兴的研究领域,该领域主要是针对非欧几里得数据的深度学习。

需要几何深度学习资料的可关助工重号:AI技术星球 回复:211 获取

非欧几里得数据

对于非欧几里得数据,两点之间的最短有效路径不是它们之间的欧几里得距离。我们将使用网格对此进行可视化。在下图中,可以看到,通过离散体素,将经典斯坦福兔子表示为网格(非欧几里得)或呈网格状体积(欧几里得)之间的区别。

 

点A和B之间的欧式距离是它们之间最短直线路径的长度,可视为图像上的蓝线。两点之间的测地距离,则更类似于绿线的长度。测地距离是高维最短路径概念的表示,而图的测地距离通常是节点之间的最短路径。

以非欧几里德的方式解释网格的优点是,测地距离对于在其上执行的任务更有意义。我们这样想:在深层的CNN中,我们依赖于可能彼此相关的相邻像素。为了在图上重现类似的设置,我们需要考虑重新制定「紧密度」。

当然,我们可以将固有的非欧几里德数据转换为欧几里得数据,但这样的效率和性能损失会很大。在针对零件分类和分割的斯坦福大学ShapeNet数据集上,这一代价显而易见。第一个在Chang等人提出的基准上达到良好结果的神经网络,依赖于对于网格的体积表示,以及处理过程中使用的深度信念网络。

因为问题的规模是立方的,因此这种方法的主要问题,是如何权衡离散化和运行效率。此外,在3D体素上使用卷积,会在3D空间上执行的计算中花费大量的开销。由于在同一体素空间中表示了许多不同的对象,所以没有简单的方法来防止这些空计算的发生。

当前的SOTA方法,则直接在网格结构上执行上述任务,或者将它们转换为点云,从而实现卓越的性能,显著缩短了运行时间。

既然这一部分是几何深度学习,那我不是很懂图论诶,这怎么破?

不用担心,在本文的其余部分中,您不需要图论知识,但您应该先阅读一下,才能使用我们很快将要看的软件库。为了了解GDL中的基本概念,如果您想要对图论中得到很好的入门级理解,可以参考Vaidehi Joshi的《图论的优雅介绍》(A Gentle Introduction To Graph Theory):

https://medium.com/basecs/a-gentle-introduction-to-graph-theory-77969829ead8

 为了理解这一领域的详细算法,想更深一步理解该领域的深度理论,请参阅Wu等人的论文《关于图神经网络的全面研究》(A comprehensive survey on graph neural networks)。

此外,该研究报告中介绍的分类法,还可以帮助您理解此领域与深度学习其他领域的相似之处。

当然,最好的情况是,这篇文章可以让你根据可用的数据,来判断可能的应用场景,并解决现存的问题。

我们了解了GDL与非欧几里得数据有关,需要注意的一点是,我们并不讨论点云,点云虽然具有自身的优势,但是在我们做出的假设上,其实与图和网格有很大不同。

神经网络大比拼

 Battaglia等研究者,在关系归纳偏差的基础上,对当前的神经网络组件进行了情境化,并通过以下方式,进行总结:

上表已经直接提到了深度CNN的两个基本属性:局部性和空间转换的不变性。此外,通过在深层CNN中堆叠卷积层,我们鼓励网络学习不同抽象级别上的特征。这种层次结构,也是深层CNN的第三个主要属性。这意味着通过顺序组合图层,我们实现了功能层次结构,从而可以在数量上更好地表示有监督任务。总而言之,这三个方面使深层CNN可以很好地应用于到图像域。

 当前在GDL中的研究,也试图达到类似的目标,但是这一过程,要建立在功能更强大的推理基础上。正如Francois Chollet在上面的推文中提到的那样,深层的CNN可以很好地概括所有视觉数据。在图形上使用GDL时,我们可以依赖于任意关系归纳偏差,来开发可以推广到任意关系数据的算法。

预测新冠发病率!几何深度学习要怎么玩?

图分割 

图的分割是对图的每个组成部分,节点或边进行分类的任务。

从较大的COSEG语义分段数据集中,我们提取出了四足数据集,并显示了此任务的真实标签。在这种情况下,每一部分都有属于五种可能类别之一的标签:耳朵,头部,躯干,腿和尾巴。根据此局部级别的信息,生成节点或边缘标签就变得很简单。当前,这种直接在网格上工作的方法可以在基准上实现很好的SOTA性能。

为什么在这种粒度级别上进行语义分割,有意义吗?好吧,可以想像自动驾驶汽车面对的任务,此情形要求汽车不断监控其环境,并解释下一个行人要做什么。通常,行人可以由大型3D边界框,或具有更多运动程度的骨骼来表示。通过更好,更快的3D语义分割,更多的自动驾驶感知算法将变得可行。 

图分类

此子应用类别中的算法,接收图形或子图形作为其输入,并根据与该预测相关的概率值,来预测n个指定类之一。该预测通常以与图像分类非常相似的方式进行,因为所用网络有两个主要部分。

第一个是特征提取器,其功能是根据输入数据为手头的任务生成最佳表示。另外的则是一个或多个完全连接的层,以将结果回归约束到某个维度,而对于多类分类,softmax层是必需的。多类分类意味着对于我们拥有的每个输入,都可能有不止一种类与其对应。

针对这项更广泛的任务,令人激动的例子之一就是3D面部表情的分类。当前社会中,消费级产品已经配备了传感器,并具有足够的计算能力,来生成所需的3D数据结构。

同时,应用在这些数据结构上的算法的可解释性也变得越来越高。Gong等人最近推出了一种基于网格的方法,该方法仅依赖XYZ坐标,而无需任何辅助要素,该方法可在4DFAB上以接近80%的精度实现SOTA性能。 

https://github.com/sw-gong/spiralnet_plus

前沿的来了!GDL的现实应用 

我们将会介绍工业应用中的一个例子,并留下一些文献供您参考:

在上两节的图分割和图分类的应用举例中,我们专注于来自于经典计算机视觉的任务。而GDL则可以在图结构应用更常见的应用中大放异彩,如知识图谱。

Grakn Labs团队的KGCN是当今冠状病毒(COVID-19)大流行时期中,非常引人注目的应用实例。他们基于KGCN的诊断预测的应用也值得一读:

https://github.com/graknlabs/kglib/blob/master/kglib/kgcn/examples/diagnosis/diagnosis.py

在此应用中,他们利用医生和护士输入的有关过去患者的数据,来收集真实图数据。然后,利用这些真实的图数据,他们可以学习去预测新患者之间的关系。

 以冠状病毒为例,我们可以训练神经网络根据数据库中以前的病例,来预测这种病毒感染的可能性。然后,网络可以根据症状来预测疾病在知识图谱中的发病概率关系。该预测机制可以在医院中使用,也可以作为简单的Web应用程序,用作公共服务。

该应用程序可以依靠准确的临床数据,并在用户输入自己的自诊断症状后,告知用户其病毒感染的可能性。甚至可以通过对用户输入的关系(而不是医生或护士)赋予不同的权重,来考虑让用户进行自我诊断。在医院中,这些预测可以帮助医生加快流程,或作为诊断的参考意见。

下面是相关交叉领域用例的延伸阅读:

电力系统图神经求解器

 物理感应图神经网络:在风电场功率估算中的应用

深度强化学习满足图神经网络的需求:探索路由优化用例   

我们简要介绍了几何深度学习,并将其作为整体深度学习的背景。尽管GDL总体上处理不规则的数据结构,但我们专注于图,并展示了它未来良好的发展空间。

应用场景

几何深度学习的应用范围非常广泛,包括但不限于计算机视觉、自然语言处理、推荐系统、无人驾驶、机器人学等领域。在这些领域中,几何深度学习通过捕捉数据中的几何关系,帮助模型更好地理解和学习数据的深层结构,进而提高模型的泛化能力和预测准确性。

最新研究

最新的研究表明,几何深度学习在多个领域内都有着重要的应用前景。例如,在计算机视觉中,研究者们利用几何深度学习进行单目或多目深度估计、光流估计等任务;在自然语言处理中,通过几何先验来提升文本理解的深度;在无人驾驶技术中,几何深度学习能够帮助车辆更好地理解道路的几何结构,从而实现更安全的行驶。

未来发展和总结

几何深度学习的未来发展潜力巨大。随着深度学习技术的不断进步,结合几何学的深度学习模型有望在更多领域内实现突破。例如,结合无监督学习或半监督学习的几何深度学习模型可能会在不需要大量标注数据的情况下,依然能够实现高性能的学习和预测。

几何深度学习以其独特的视角和方法,在机器学习领域内开辟了一条新的研究路径。它不仅丰富了深度学习的理论基础,也为解决实际问题提供了新的思路和方法。随着研究的深入,几何深度学习有望在未来的智能系统中扮演更加重要的角色。


准备了三大资源包:100GAI资源包+大模型资料包+论文攻略资源包(需要那个记得说明)

几何深度学习资料+论文指导发刊+kaggle组队+技术问题答疑
关注工重号:AI技术星球  发送211 领qu
AI资料包:1、超细AI学习路线
2、人工智能基础:Python基础、数学基础
3、机器学习:12大经典算法、10大案例实战、推荐系统
4、深度学习:Pytorch+TensorFlow等课程、NLP、神经网络
5、物体检测:YOLO、MASK-RCNN
6、计算机视觉:OpenCV、unet等
7、各阶段论文攻略合集包
8、人工智能经典书籍及行业报告

整理不易,欢迎大家点赞评论收藏!

手把手带你从做科研到论文发表,一条龙全方位指导!

避免各种常见or离谱的坑,顺顺利利学习,快快乐乐毕业~

0基础也能发论文吗?  导师放养? 毕业压力?

找不到热点课题和方向、没有idea、没有数据集,实验验证不了、代码跑不通

没有写作基础、不知道论文的含金量,

高区低投、不清楚不了解完整的科研经验,

评职称、申博压力、自我高区位的追求  都可以找我了解

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值