GNN学习笔记(二)表征学习基本介绍


一、表征学习(Representation Learning)

1.什么是表征学习

机器学习技术不仅依赖于算法本身的设计,好的数据表达(特点)集合也非常重要。表征学习的目的是从数据中提取足够且最小化的信息,用于后续处理。传统的表征学习通常基于先验知识和领域专家的意见,这种传统的表征学习被称为特征工程(feature engineering)。特征工程是一种利用人类创造力和先验知识,以从数据中提取和组织用于机器学习任务的判别信息的技术。

2.传统表征学习(特征工程)的局限性

(1)通常需要领域专家的大量劳动:模型开发者需要与领域专家紧密合作。
(2)不完整且有偏差的特征提取:提取信息的能力收到专家知识的限制。

3.表征学习的分类

表征学习是在特征工程的基础上发展起来的。本书主要研究基于深度学习的表征学习。基于深度学习的表征学习主要可以分为三类:
(1)监督学习:训练模型的数据都含有对应标签
(2)无监督学习(包含自监督学习):使用没有对应标签的数据进行训练,旨在了解数据潜在的固有结构和分布。
(3)迁移学习

4.如何判断表征学习效果

表征学习通常用于提取数据的特征,使后续构建分类器时更加简单有效。因此,表征学习的评估要考虑其下游任务,根据下游任务的需要确定什么样的表征是优秀的。同时,好的表征方式可能具有一些一般性质,例如:平滑性(smoothness)、线性性(linearity)、捕捉多个解释性和偶然性因素(capturing multiple explanatory and casual factors)、在不同任务中保持共享因素和简单因素的依赖性(holding shared factors across different tasks and simple factor dependencies)。

5.表征学习的应用领域

本书总结了表征学习可以应用的四个不同的代表性领域:
(1)图像处理
(2)语音识别
(3)自然语言处理
(4)网络分析
具体应用参照书P37-46

二、图表征学习(Graph Representation Learning)

图表征学习旨在将图中的节点分配到低维表达中,并有效保留图的结构

1.图的传统表达方式存在的问题

图的传统表达方式是用点集和图集表示的。即G=(N,E)。对于大规模图来说,可能存在数以万计个节点,因此在图的处理和分析过程中会存在一些问题:
(1)计算复杂度高:传统表达方式中各节点之间的关系由边集E编码表示,最常见的一种方法是用两节点之间的最短路径或平均路径表示两节点之间的距离,这就需要找到两节点间所有可能的路径,是一个组合问题,可见在图规模大时计算复杂度非常高。
(2)并行性差:图的传统表示方式给并行和分布式算法的设计造成了困难。主要的瓶颈一张图中的节点由边集E显式耦合,如果在分布式服务器中分布有关联的节点,会导致服务器之间通信成本过高,且阻碍了加速比。
(3)机器学习方法不适用:对于用传统方法表示的图,现成的机器学习方法可能不适用。因为多数机器学习模型都假设数据样本可以用向量空间中的独立向量表示。但是图数据(即节点)在某种程度上是由边决定的。虽然我们可以简单的用邻接矩阵表示图,但是对于大规模图,邻接矩阵的维度极高,给后续处理和分析造成了困难。
基于上述传统图表征方式存在的问题,研究新的图表征方式显得格外重要。

2.图表征学习的两大目标

(1)图表征方式可以从学习的表征空间中重构原始图。
(2)学习的表征方式可以有效支持图推理,例如预测不可见的链接,判定重要节点,推理节点标签等。

3.图表征学习的分类

图表征学习方法主要可以分为三类:传统图嵌入,现代图嵌入,图神经网络。

3.1传统图嵌入(traditional graph embedding)

传统图嵌入起初是作为一种降维技术研究的,它专注的任务主要是图表征学习的目标(1),即图重构。传统图嵌入技术主要适用于由特征表示的数据集构造的图,边缘权重编码的节点之间的邻接性在原始特征空间中得到了很好的定义。

3.2现代图嵌入(modern graph embedding)

现代图嵌入主要针对节点之间的邻接性没有直接定义的情况,例如社会学网络、生物学网络、经济学网络等。这种情况下,节点间的邻接性需要在特殊场景和应用下具体定义。因此,现代图嵌入技术通常需要依靠充足的信息。
现代图嵌入技术专注于图表征学习的目标(1)和(2),因此,传统图嵌入可以看作现代图嵌入的一种特例。

3.3图神经网络(graph neural network):

研究图神经网络的困难主要可以总结为:
(1)图不寻常的结构: 不像文本、图像、音频,图的结构不寻常,导致一些基础数学操作在图上很难定义。这导致卷积神经网络中的寻常操作,如池化、卷积等在图上难以直接进行。
(2)图的异构性与多样性
(3)大规模图
(4)与其他领域知识结合


总结

第二章主要介绍了表征学习的基本定义、分类、应用。第三章先介绍了传统的图的表达方式存在的一些问题,然后分类介绍了图表征方式。引出了GNN,并介绍了GNN的一些研究难点。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值