Datawhale 图机器学习 组队学习Task01

图机器学习导论
摘要由CSDN通过智能技术生成

图无处不在

背景

  • 图是描述关联数据的通用语言

  • 在我们生活中,其实很多数据都是以网络/图的形式存在的,大概可以分为

  • Networks (Natural Graphs) 。可以看做是自然网络,比如社会、社交网络、蛋白质图谱、基因图谱、思维导图等。

  • Information Graphs 可以看做是各种信息汇聚成为的网络,如知识图谱,相似网络(similarity netoworks)等等。

  • 传统机器学习任务假设数据之间独立同分布,彼此独立无关,但是图的节点之间是相互关联的

  • 图的表示学习:端到端的学习方式,不需要特征工程,输入原始图数据,输出不同类型的下游预测任务

  • 图嵌入:学习节点的特征表示,把复杂数据(图像、文本、语音)变成一个包含节点语义信息的嵌入向量;节点、连接、子图、全图都可以有特征

网络/图论的基本知识

图的结构

图由三类重要的元素组成:

  • Objects (对象):Nodes(节点)、顶点(Vertices),用 $N$ 来表示

  • Interactions(相互作用): links(链接), edges(边),用 $E$ 来表示

  • System (系统):network(网络), graph(图),用 $G(N,E)$ 来表示

构建一个网络/图,就是定义它的这些基本结构——哪些信息/元素作为节点,这些节点之间怎么进行连接(即边怎么定义)。对于不同的场景,选择合适的图来进行描述和建模,会变得事半功倍。

图的不同形式

有向图和无向图

完全图 (Complete Graph)

在图论的数学领域,完全图是一个简单的无向图,其中每对不同的顶点之间都恰有一条边相连。

**二分图 (Bipartite Graph,二部图,对偶图)

在二分图中,图的节点恰好可以分为两个互不相交的集合 $U$ 和 $V$,图中每条边都是这两个集合中的节点的链接。二分图是一种十分常见的图数据对象,描述了两类对象之间的交互关系,如:用户与商品,作者与文章。

二分图的折叠 (folded) /投影 (projection) 是指若该集合中的某些节点如果有链接到另一个集合的同一个节点,则认为他们之间存在一定的关系。

加权图(Weighted graph)与非加权图(Unweighted graph)

连通图与非连通图

如果图中存在孤立的顶点,没有任何边与之相连,这样的图被称为非连通图。反之,如果不存在孤立顶点的图称为连通图。

其他类型的图

图的储存

邻接矩阵(Adjacency matrix)

邻接矩阵中 $A_{ij} = 1$ 表示有边连接(指向)节点 $i$ 到节点 $j$;否则,$A_{ij}=0$。

现实中,在大多数情况下,邻接矩阵表现为稀疏矩阵,并且现实中的网络是稀疏的。

图机器学习、图神经网络编程工具

  • PyG(PyTorch Geometric):基于 Pytorch 开发的目前也是使用最为广泛的库,与之相对的是 DGL

  • GraphGym: 设计图神经网络的平台

  • 复杂网络分析工具:NetworkX

  • 图数据的可视化:AntV、Echarts、GraphXR

图机器学习应用

目前对于网络的研究主要集中在以下几个方面/场景:

  • 对节点的类型/属性进行预测。例如:节点分类。

  • 预测两个节点是否相连。例如:链路预测(link prediction)。如推荐系统中推荐用户商品、电影评价、药物副作用预测

  • 识别紧密相连的节点群。例如:社区挖掘(Community detection),节点聚类。

  • 计算两个节点或者网络的相似性。如:两个节点可能相距较远,但是运行机制上可能存在相似的地方。

  • 对于整个图的预测或者分类。例如:引文文献的分类,药物发现或者物理模拟等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值