图机器学习导论
1. 图简介
-
无处不在:社交网络、论文引用、神经元连接、医疗知识图谱、基因和蛋白质的调控网络等
-
描述 关联性数据 的重要语言
-
在数学上:哥尼斯堡七桥问题
-
传统机器学习:数据样本之间独立同分布
-
现代深度学习:表格、矩阵、序列
-
挑战:每一个节点有多种模态特征,如何充分利用这些特征,使GNN有更强的表示能力,能够兼容关联性数据类型
2. 图神经网络
-
核心:图嵌入
- 不需要人工特征工程就可以自动学习特征,实现端到端的表示学习(将图数据表示为低维向量)
- 不需要人工特征工程就可以自动学习特征,实现端到端的表示学习(将图数据表示为低维向量)
-
工具:PyG、NetworkX、DGL
- 可视化:AntV、Echarts
- 可视化:AntV、Echarts
-
应用:最短路径的搜索和查找、社群检测、推荐系统、节点相似度分析、Embeddings
- 节点层面:已知节点类别推测未知节点类别
- 连接层面:推荐系统,由已知连接推测未知连接;药物的联合副作用;交通导航
- 图层面:药物分子设计;粒子物理模拟;医疗智能诊断问答机器人
-
突破性进展:
- AI药物研发:AlphaFold(Spatial Graph)
- 最优质的长期资产(网络效应)
-
图数据挖掘项目:
- ReadPaper、Connected Papers、BIOS
- Hypercrx、OpenRank、open-galaxy
3. 总结
- 图是描述大自然的通用语言,蕴含了巨大商业和科研价值
- 图在过去未来都在改变各行各业,图机器学习是长期通用技能
- 图机器学习可结合性强(大模型、多模态、可信计算、NLP)