北邮石川教授:「异质信息网络」研究现状及未来发展

13 篇文章 15 订阅

本文转载自:https://www.leiphone.com/news/201801/MpY4WF11OTnFLp7y.html

图片均来源于转载地址

异质信息网络研究现状及未来发展

一、引言

现实生活中的大多数实际系统是由大量相互作用、类型不同的组件构成,当前的分析方法通常将其建模为同质信息网络(Homogeneous information network)。采用同质网络的建模方法往往只抽取了实际交互系统的部分信息,或者没有区分交互系统中对象及关系的差异性,这些做法都会造成信息不完整或信息损失。

最近,越来越多的研究人员开始将这些互连的多类型网络化数据建模为异质信息网络 [1](Heterogeneous information network),并且通过利用网络中丰富的对象和关系信息来设计结构分析方法。与广泛研究的同质信息网络相比,异质信息网络包含全面的结构信息和丰富的语义信息,这也为数据挖掘提供了新的机遇与挑战。

这里我们简单介绍这种建模方式的基本概念、分析方法和未来发展。

[1] 这里我们将 Homogeneous / Heterogeneous information network 翻译成为同质/异质信息网络。虽然有些学者将其翻译为同构/异构信息网络,但是这种翻译容易和通信网络中的同构/异构网络的概念混淆。另外,同质/异质更能反映网络中节点和边的类型和性质不一样这种特性。

二、基本概念

我们先介绍一下异质信息网络中的基本概念。

2.1 概念

异质信息网络被定义为一个有向图,它包含多种类型的对象或者关系,每个对象属于一个特定的对象类型,每条关系属于一个特定的关系类型。网络模式(Network schema)是定义在对象类型和关系类型上的一个有向图,是信息网络的元描述。
在这里插入图片描述
图 1(a) 是一个由科技文献数据构成的典型异质信息网络实例。该网络包含三种类型的对象:论文、会议和作者;每篇论文有到作者和会议的链路关系,每条链路属于一种关系类型。

图 1(b) 是该网络的网络模式,描述了文献网络包含的对象类型(会议、论文、作者)和相应的关系(撰写/被撰写、出版/被出版、引用/被引用)。

异质信息网络分析中一个重要的概念是元路径(meta-path)。元路径是定义在网络模式上的链接两类对象的一条路径,形式化定义为
在这里插入图片描述
,表示对象类型之间的一种复合关系 R = R 1 ∗ R 2 ∗ . . . . . . ∗ R l R=R1*R2*......*Rl R=R1R2......Rl,其中 ∗ * 代表关系之间的复合算子, A i A_i Ai 表示对象类型, R i R_i Ri 表示关系类型。
在这里插入图片描述
元路径不仅刻画了对象之间的语义关系,而且能够抽取对象之间的特征信息。图 2 显示了文献网络中两个元路径的例子,分别简记为「APA」和「APVPA」(A、P、V 分别表示作者、论文和会议类型)。可以看出,基于不同的元路径,对象之间的语义关系是不同的。元路径「作者-论文-作者」(APA)表示两个作者合作撰写了同一篇论文;元路径「作者-论文-会议-论文-作者」(APVPA)表示两个作者在同一会议上发表了论文。链接两类对象的不同元路径表示了不同的语义关系和不同的链接网络,这也造成了不同的分析结果和不同的特征表示。

实际上,大多数真实系统都存在多种类型对象的相互交互。例如,社交媒体网站(如微信和微博)包含多种类型的对象(如用户、帖子和标签)和这些对象之间的复杂交互(如用户之间的朋友、跟帖、通信等关系,用户和帖子之间的发布关系)。医疗系统包含医生、病人、疾病和设备等对象类型以及他们之间的交互。一般来说,这些交互系统都可以被建模为异质信息网络。

传统的同质网络建模方法只是抽取了这些真实交互系统的部分信息,而且这些信息往往也可以从异质信息网络中推导出来。例如,经常分析的作者合作网络可以通过元路径「APA」从上述科技文献网络中得到。

2.2 为什么要进行异质信息网络分析

作为数据挖掘的重要研究方向,在过去的近20年里,网络分析方法已经被深入研究,并且应用于很多数据挖掘任务,在这些工作中往往将网络化数据建模成同质信息网络。然而,异质信息网络的一些独特特征使得异质信息网络分析变得十分重要。

  • 首先,异质信息网络分析是数据挖掘的新发展。近年来,大量涌现的社会媒体网站包含许多不同类型的对象和对象之间复杂的交互。将这些相互作用的对象建模为同质网络是很困难的,然而使用异质信息网络为其建模却是很自然的方式。特别的,大数据的一个显著特征是数据的多样性,作为半结构化的表示方法,异质信息网络可以有效建模和处理大数据中复杂多样的数据。

  • 其次,异质信息网络是融合更多信息的有效工具。与同质网络相比,异质网络可以融合更多类型的对象及其之间复杂的交互关系,也可以融合多个社交网络平台的信息。

  • 最后,异质信息网络包含丰富的语义。在异质网络中,不同类型的对象和链接共存,它们具有不同的语义含义,在数据挖掘任务中考虑语义信息将导致更细微的知识发现。同质网络中的大多数方法并不能直接应用于异质网络中,因此在异质信息网络中发现有趣的模式是十分必要的。

三、研究现状

3.1 研究现状概述

异质信息网络为更好地分析网络化数据提供了一种新的研究模式,同时也给许多数据挖掘任务带来了新的挑战。很多基于异质信息网络的数据挖掘问题已经被广泛研究,图 3 是对过去 6 年这一方向相关研究工作的近 200 篇论文按照研究问题分类的分布图。从图中可以看出,异质信息网络已经广泛应用于主要的数据挖掘问题,特别是相似性度量、聚类、分类、链接预测、推荐等任务。
在这里插入图片描述
异质信息网络建模的优势在于整合更多信息和包含丰富语义,这同时也造成了异质信息网络分析的难点:如何有效利用异质信息和探索丰富语义。

作为有效利用异质信息和探索语义的工具,元路径被广泛应用于异质网络分析。例如,PathSim 利用对称元路径抽取两个节点之间的连通路径来度量二者的相似性,这样不仅利用到了相关的异质信息,而且体现了节点和边的丰富语义。很多机器学习技术都可以应用到异质网络分析中,例如随机游走模型、主题模型、矩阵模型和概率模型。各类信息也都能够整合到异质网络分析中,例如属性信息、文本信息和用户指导信息。

图 4 从网络结构和语义探索两个角度,总结了该领域的一些典型工作。沿着 X 轴,网络结构变得更加复杂;沿着 Y 轴,语义信息变得更加丰富。
在这里插入图片描述
例如,PathSim 可以处理星型模式网络,并使用元路径挖掘语义关系。SemRec 在基本元路径上增加了链接的权值约束,以在带权异质网络中探索更微妙的语义信息。从图中我们可以发现,大多数研究都集中在简单网络结构(例如二分或星型模式网络)和基本语义探索(例如元路径)上,未来在利用更强大的语义探索工具分析更复杂的异质网络方面还需要做更多探索。

四、未来发展

虽然异质信息网络已经应用于很多数据挖掘任务,但它仍然是一个年轻而且快速发展的研究领域。在这里我们简单讨论一下未来的研究方向。

4.1 更加复杂的网络构建

当前研究大多假定异质信息网络是明确定义的,网络中的对象和关系是清晰的。然而,在实际应用中,从真实数据构造异质信息网络会遇到很多挑战。对于关系数据库之类的结构化数据,构造异质信息网络比较容易,然而即使是在这种网络中,对象和关系也可能具有噪声,比如会出现对象重名或关系不完整等问题;对于像文本、图像等非结构化数据,如何准确抽取出相应的对象和关系,进而建立更加完善和准确的异质信息网络也将面临更多挑战,在实践中会用到诸如信息抽取、自然语言处理、图像处理等各种技术。

4.2 更加强大的分析方法

在异质信息网络中,对象可通过不同的方式组织在一起。星型模式是广泛使用的异质信息网络类型,例如前面介绍的科技文献网络。之后,又出现了带环的星型模式和多中心网络等网络模式。

实际应用中,网络化数据通常更加复杂和没有规律性。某些实际网络中的链路会包含属性值,而这些属性值可能包含重要的信息,这样就构成了带权异质信息网络,例如前面介绍的电影网络。另外一些应用中,用户可能存在于多个异质网络,这时需要对齐不同网络中的用户,有效融合不同网络的信息。还有很多网络数据,例如知识图谱,包含有很多种类型的对象和关系,很难用简单的网络模式来描述。这种丰富模式(schema-rich)的异质网络中也出现了很多新的研究问题,例如多种类型对象关系的管理以及元路径的自动产生等。这些复杂的网络化数据,给异质信息网络建模与分析提出了更多的机遇和挑战。

异质信息网络中的对象和关系包含着丰富的语义信息,而元路径可以捕捉这种语义信息。异质信息网络上的很多数据挖掘任务是基于元路径进行研究的,但是元路径在某些应用场景中并不能捕捉到精细的语义信息。例如,“作者-论文-作者”路径表示了作者之间的合作关系,但却不能描述特定条件下(例如KDD领域)的合作关系。为了克服这个不足,很多研究者提出了受限元路径、带权元路径、元结构等概念扩展元路径的语义抽取能力。针对更加复杂的网络结构(如知识图谱),如何设计更加灵活精细的语义探索工具仍然需要进一步的研究。

近些年出现的深度学习在图像、自然语言等高维复杂数据处理上展现了优异的特征抽取能力,因此可以利用深度学习方法处理异质网络数据。当前深度学习和表示学习已经开始用于网络的结构特征表示。异质网络中包含不同类型的节点和边,而且元路径体现了丰富的语义信息,这些特征使得异质网络的特征表示学习表现出很大的不同。异质网络的表示学习对异质网络分析提出了新思路,也为结构信息与其他模态信息融合提供了新途径。

4.3 更大数据的处理

为了展现异质网络建模的优势,我们需要在更广泛的领域中对大型网络化数据设计实用的数据挖掘算法。多样性是大数据的重要特征,异质网络是处理大数据多样性的有效方法。然而,构建一个真正的基于异质网络的大数据分析系统也是具有挑战性的工作。实际的异质网络是巨大的,甚至是动态的,所以它通常不能存储在内存中直接处理。由于用户往往只对一小部分节点、链接或子网络感兴趣,我们可以根据用户需求,从现有网络中动态地提取子网络进行分析。另外,设计基于异质网络的快速算法和并行算法也是亟需研究的内容。

其他一些研究方向也值得关注。相比于学习大数据的深层特征的深度学习方法,最近兴起的广度学习(broad learning)整合不同类型的多个数据源进行融合学习,并在一些应用中取得了显著效果。由于异质信息网络是大数据时代整合不同类型数据的天然工具,因此结合异质信息网络研究广度学习方法不仅会推动新的机器学习方法的发展,而且为解决大数据的多样性提供新的思路。针对具体问题的异质网络分析系统也是重要发展方向。2017年KDD的最佳应用论文利用异质网络和元路径构建和描述Android手机的APP应用和API调用的丰富交互,并将其用于恶意软件检测。这也为采用异质信息网络解决实际问题带来有益启示。

五、结论

近年来,由于异质信息网络包含全面的结构和丰富的语义信息,采用异质网络建模和分析的研究大量涌现。本文对这个发展快速的领域进行了一个简要的介绍,希望研究者更好地了解异质信息网络分析的基本思路和特点,能够采用这种模式对实际的网络化数据进行建模和分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值