GNN+DGL落地项目中的挑战和思考

GNN+DGL落地项目中的挑战和思考

在2021年6月亚马逊云科技 Community Day 上,张建老师做的题为《图神经网络和DGL在实际落地项目中的挑战和思考》的Talk,本篇笔记是对B站上该Talk视频的摘要和理解,详见up主【亚马逊云科技】

GNN+DGL落地项目中很多问题和挑战在学术圈看不见,但是机器学习实践者、开发工程师们需要考虑这些问题。下面从四个方面介绍GNN+DGL落地项目的挑战和思考~

一、数据(你的图的信息足够丰富吗?)

学术圈里的图数据:Cora、Citeseer、PubMed(三大垃圾数据)

现实世界里的图数据:非常稀疏、标签数据少

图数据的信息决定了模型性能的上限,模型只是去无限趋近这个天花板。

请社区一起思考:

  • 什么是图信息?
  • 如何衡量“信息”?
  • 信息值能指导GNN吗?
  • 那还要不要搞图?
二、模型(什么情况下GNN模型更有优势?)

模型的设计空间很大;如何对应具体的业务问题;是不是一定要MP…

xGboost:基于特征的模型需要输入样本有特征,但是现实世界中,很多样本是没有特征的。

  • 大量的节点是无特征的
  • 有连接节点GNN即可用

请社区一起思考:

  • 不同GNN模型的适用性是什么?
  • 点/边的特征怎么用?
  • 是不是一定要用GNN?
  • 如何组合GNN和其他模型?
三、速度(图模型能做实时推断?)

实时推断有两个层面的要求

Transductive模式:在训练阶段,要被预测的节点/边已经存在于图中,训练的节点可以“看到”这些节点/边。

Inductive模式:需要预测的节点在训练阶段并不在图中,训练出的模型需要适用于预测阶段的图结构。

批次预测:在推断时,按照一定的窗口,把新出现的节点/边和部分已经存在的节点/边合成一个新图。

实时预测:需要预测节点/边加入已经存在的图,并抽取出它们的N跳子图用于预测。

整个过程:数据管道 -> 数据存储 -> 数据抽取 -> 模型推断 -> 结果分析

请社区一起思考:

  • 现有的数据管道适合图信息构建吗?
  • 现有图数据库的增和查够快吗?
  • 实时图算法解决方案的架构如何设计?
  • 对图数据,有没有实时流式方法?
四、解释(图模型结果怎么解释?)

可解释性几乎是“刚需”

学术界图模型解释的论文很少,半工业界也很少,都是选取可以讲故事的图进行解释,实际应用效果差。

请社区一起思考:

  • GNN模型和结果能解释吗?
  • 有什么图分析工具可以用来帮助解释?
  • 分析师、算法工程师、数据科学家,谁来解释?

参考资料:

【1】B站视频:图神经网络和DGL在实际落地项目中的挑战和思考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值