微软熊辰炎:如何利用图神经网络解决半结构化数据问题?

微软研究院高级研究员熊辰炎博士分享了如何利用图神经网络处理半结构化数据,特别是在信息检索和知识图谱中的应用。他介绍了Transformer-XH模型,该模型能整合文本信息和结构化知识,提升表征性能。演讲强调了半结构化数据的重要性,提出了Free-Text Knowledge Graph的概念,并展示了在多跳问答系统和事实验证等任务中的应用。
摘要由CSDN通过智能技术生成

对于许多信息检索和知识图谱研究者来说,究竟应该使用抽象的结构化信息进行表示学习还是使用海量的文本信息始终是一个富有争议的话题。在本届智源大会上,来自微软研究院的高级研究员熊辰炎博士带来了题为“利用半结构化知识的表示学习与信息检索”的主题报告,结合其近年来在 ICLR、ACL、WebConf 上发表的相关工作,介绍了如何从半结构化知识的视角同时利用符号知识与纯文本信息,从而提升表征性能与效率。

 

熊辰炎 

熊辰炎,微软研究院高级研究员。主要研究方向:信息检索,自然语言处理和深度学习的结果。近期研究兴趣是长文本里面,对话信息检索和深度信息检索等。2018年卡耐基梅隆大学语言技术研究所博士。在信息检索,自然语言处理,深度学习等会议上发表论文30余篇。参与组织多次相关领域研讨会,宣讲会,以及美国国家标准局TREC竞赛等。

尽管本次演讲的标题中没有「图神经网络」等字眼,但其内容都围绕图神经网络展开。本次演讲将侧重于实际的问题、知识以及工业界常用任务中的半结构化数据,探讨如何利用图神经网络对半结构化数据进行表示学习,以及如何使用较为统一的框架解决实际中的问题。

本次演讲的内容主要分为两部分,首先,我们将从统一的「半结构化」的视角讨论知识图谱以及各种信息检索任务(例如,问答系统、事实验证、假新闻检测、信息搜索);接着,我将介绍我们近期提出的一种 Transformer 模型,它能够整合各种不同任务的信息,并学习其表征,从而完成这些任务。

 

 整理:智源社区 熊宇轩

一、知识和信息检索任务的「半结构化」视角

 

图 1:符号知识 vs. 自由的纯文本信息

 

在知识工程与自然语言表征学习领域,往往有两种对信息建模的视角。首先,对于许多任务来说,我们拥有的是结构化的数据(即符号化的知识),知识图谱就是其中一种形式。例如,图中每个节点都是一个命名实体,实体之间的边代表关系。另一方面,在有的任务中,信息则存在于原始的纯文本之中。

 

这两种建模信息的方式各有千秋。一方面,结构化数据十分干净而精确,数据十分规整,我们可以在这种该结构化数据上进行各种推理,或者基于它们开发一些可执行的程序(如 SQL 查询,或图数据库的查找或搜索)。然而,构建结构化数据的成本是很高的,并且现实世界中的一些信息也很难被表示成这种规整的结构。

 

而对于纯文本信息来说,可以使用的语料的数据量往往非常大,我们可以利用各种自然语言处理(NLP)技术处理这些文本(例如,信息提取、文本表征)。然而,纯文本信息往往不够精准,存在各种噪声,其结构也不太明显,这不利于我们进行后续的操作。

 

图 2:半结构化信息

 

我们认为,许多信息处于结构化数据与纯文本数据之间,我们将其称为「半结构化」数据。

举例而言,对于知识图谱来说,我们可以对知识图谱进行一定的松弛(例如,用某些纯文本作为边)。而对于文本信息来说,文档之间可能存在各种各样的关系,我们可以将这些文档作为图谱中的各个节点,用各种关系边将它们相连。如上图所示,1→4 展示了我们如何一步步将结构化符号信息松弛为纯文本信息的层次化过程。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值