【论文翻译】从进化和异质网络中表征和预测社区成员

从进化和异质网络中表征和预测社区成员

摘要

近年来,从web数据中挖掘不同类型的社区吸引了大量的研究工作。然而,现有的社区挖掘技术都没有考虑到web数据的动态性和异构性。在本文中,我们提出了从异构web数据的演化来表征和预测社区成员。我们首先提出一个分析异质网络演化的一般框架。然后,以从100万篇计算机科学论文中提取的学术网络为例说明了该框架。最后给出了该学术网络的两个应用实例。在一个真实的、非常大的异构学术网络上的实验结果表明,我们提出的框架能够在社区成员推荐方面取得很好的效果。同时,通过对群落演化模式的分析,可以获得新的知识和见解。

关键词:进化网络社区,异质网络,成员特征,成员预测。

1导言

随着web上大量数据的出现,近年来出现了许多基于web的社区,如基于web的社会社区、web页面社区和web用户社区。因此,越来越多的研究致力于从网络中提取社区[1、6、8、10、12、13、17、21]。其基本思想是将web数据建模为一个图形/网络,其中顶点表示web页面或web站点等对象,边表示web页面或web站点之间的关系。然后,社区挖掘的问题是提取满足某些属性的子图,例如同一社区内的对象比社区外的对象更相似/更接近。例如,Flake等人[6]将web上的社区定义为一组与社区成员的链接多于与非成员的链接的站点。然后,他们提出了一种有效的最大流(最小割)方法来识别满足定义的子图。在文献中,对web社区有不同的定义,web社区抽取已经被证明在许多应用中是有用的,例如聚焦爬虫、搜索引擎、网页分类和改进的过滤机制[6、8、13、23]。

1.1动机

社区挖掘的主要工作是定义web社区并提出相应的社区识别算法。我们的调查显示,这些努力受到以下限制的一些组合。

异构对象和关系:在现有的web社区挖掘方法中,web数据被建模为图/网络,假设所有对象都是单一类型的,并且对象之间的关系是同质的。因此,web数据被表示为同质网络,例如HITS算法中基于超链接的web页面图[11]。然而,在现实中,web数据及其对应关系本质上是异构的。在网络中可以找到不同类型的web对象。例如,在基于web的学术网络中,我们可以找到论文、研究人员、会议和期刊对象。同时,这些对象之间存在着不同类型的关系,如一篇论文“正在进行”一次会议,一位研究者“是论文的作者”,两位研究者是某些论文的“合著者”。因此,同质图/网络表示不能准确区分异构web对象及其对应关系

数据源的动态特性:由于web数据是动态的,相应的表示也可能随着时间的推移而变化。例如,随着新的超链接网页和网站的创建,web图形结构可能会随着时间的推移而改变。因此,网络社区可能也会演变。例如,一个特定的社区可以分成几个社区,或者一组社区可以合并成一个社区。此外,随着时间的推移,社区成员可能会从一个社区变化到另一个社区。例如,在研究界,当数据挖掘研究在20世纪90年代初出现时,它被认为是数据库界的一部分。但由于其日益普及,数据挖掘已经发展成为一个单独的社区。然而,在现有的大多数web社区挖掘方法中,通常将web数据视为快照数据。因此,在网络社区抽取过程中,这些工作没有考虑到网络社区以及社区的个体成员的进化性质。直到最近,才有越来越多的人致力于在社交网络的背景下研究网络社区的演化[2,3,5,12,14,16,17]。

除了单个成员的聚类之外:现有的大多数工作都将社区挖掘视为一个聚类问题。目标是建立一个模型,可以将一个对象分类为一个特定的社区。然而,正如我们稍后将看到的,在一些实际应用中,社区挖掘不仅仅是一个集群问题。具体来说,可能存在社区范围内的约束,而现有的聚类问题只考虑社区中的单个成员。例如,在学术网络中,有一些社区(如会议项目委员会)需要满足某些社区范围的限制条件。也就是说,项目委员会中的每个成员不仅应该满足某些属性,整个社区本身也应该满足一些全局约束。例如,会议项目委员会社区的成员作为一个整体应该涵盖特定会议的所有相关主题以及相关研究活跃的地理位置。

1.2概述

本文结合网络数据的演化特性和异构特性,提出了一种新的web社区挖掘框架。该框架的一个关键目标是描述和预测社区成员。在我们的方法中,我们首先将web数据建模为一个异构网络,其中顶点是不同类型的对象边表示不同类型的关系。这样的表示使我们能够清楚地区分对象的类型和相应的关系。请注意,我们区分它们的原因是,正如我们稍后将看到的那样,不同类型的对象和关系通常在不同的社区挖掘应用程序中扮演不同的角色。然后,基于用户定义的时间粒度,将异构网络中同一时间间隔内的对象和关系合并在一起。然后,提出了一种基于向量的异构网络结构来表示时间间隔序列之间的关系。需要注意的是,基于向量的异构网络中的边不仅表示对象之间的关系,而且还表示关系的演化模式

在利用上述结构描述了web数据的异构性和演化特性之后,从基于矢量的异构网络中提取出社区的特征。我们采用PopRank算法[19]对对象进行排序,并将秩值作为特征的一部分。最后,基于提取的特征集构造了一组社区模型。提出了一个由回归阶段和多类分类阶段组成的两级社区模型。由于现实生活中社区之间存在着层次关系,我们用回归模型构建了社区间层次的第一层,并利用多类分类模型进一步区分无法通过回归分离的社区。本文的主要贡献如下。

  • 我们提出了一个新的web社区挖掘框架,它结合了web数据的进化特性和异构特性。通过一个基于学术网络的实例说明了该框架的特点和实用性。虽然最近在研究社交网络的演化方面已经做出了一些努力[3,5,14],但据我们所知,这些方法没有考虑到社区抽取过程中web数据的异质性。
  • 我们提出了一种新的结构,称为基于向量的异构网络来建模web对象的异构性和演化特征以及相关关系。
  • 我们提出了一种基于PopRank算法[19]的方法来提取与特定社区相关的特征。在提取特征的基础上,提出了一种基于回归和多类分类的两级社区模型构建技术。
  • 学术网络数据用于说明所提议的框架如何与两个代表性应用程序协同工作:会议项目委员会建议和研究人员进化跟踪。
  • 我们用真实的学术网络数据展示了广泛的实验结果,并说明我们提出的方法可以产生高质量的社区模型,并提供有关社区演化的见解。

本文的其余部分组织如下。相关研究见第2节。第3节描述了我们的社区挖掘技术的框架。第四部分以一个实际的学术网络数据为例说明了该框架。基于学术社区网络数据的实验结果见第5节。最后一节对本文进行了总结。

2相关工作

海量图的建模:已经有几项关于开发海量图模型的工作,如配置模型[18]、生成模型[4]、小世界现象的Kleinberg模型[11]、森林火灾图模型[15]和社交网络的偏向优先依恋模型[14]。与此相反,我们着重于使用新的基于向量的异构网络来建模异构和进化的社区网络。

从静态图中抽取社区:在[8]中,Kleinberg等人将web社区定义为一组具有代表性的权威web页面,这些页面由共享同一主题的重要中心页面链接。点击率在[8,11]中已经被应用于寻找这样的网络社区。在[13]中,Kumar等人将网络社区定义为一个稠密有向二部子图,其中包含一个具有一定大小的完全二部子图。他们在中心和权威机构上进行了扩展,使用共引作为一种方式来提取网络上的所有社区,并使用图论算法来识别表示社区的所有图形结构实例。在[6]中,Flake等人将社区定义为一个顶点子集,其中每个成员顶点与成员顶点连接的边数至少与与与非成员顶点连接的边数相同。他们建议使用最大流和最小割算法来识别这样的社区

在文献计量学和文献引文研究中也进行了社区挖掘工作[1,20,23]。在文献[20]中,在衡量论文、作者和期刊影响的背景下,讨论了各种类型的引文挖掘和文献计量技术。文献[1]将图聚类算法应用于基于引文关系的论文聚类。在[23]中,提出了一种基于频繁项集的算法来生成社区的核心集,并将其与附属对象合并。

上述研究通常从静态(聚合)图中提取社区,而忽略了社区动态行为的细节。对比之下,我们分析了群落提取的动态特征。

从动态网络中提取社区:最近,有大量关于从在线动态网络中提取社区的工作[12,17,21]。在[12]中,Kumar等人应用Kleinberg的突发算法将社区识别为博客之间的超链接突发,其中该突发是从作为爬行博客的结果而从博客图中提取的时间图中获得的。林等人[17]提出了一个基于相互意识的博客社区形成模型。请注意,这些方法只考虑web数据的动态特性,而我们的方法是第一个为web社区挖掘集成动态和异构特性的方法

社区进化和动力学:最近,在[2,3,5,12,14,16,17]中研究了大型在线社区的进化。Leskovec等人[15,16]研究了图的时间演化的性质。这些结果提供了对图形属性(例如平均顶点度、节点对之间的距离、传导率、网络社区轮廓图)随时间的演变的洞察,并可以做出关于趋势的陈述。Kumar等人[12]从特征的变化(如入度、出度、强连通分量)、社区的变化以及博客社区的突发性等方面研究了博客圈作为一个图形的演变。他们[14]还将社会网络图分为三组:单态、巨态和中间区域,并研究了这些组的进化特征。仰泳等人[3]提供了关于影响个人加入社区的结构特征、哪些社区将快速增长以及重叠社区对的进化特征的见解。丰田章男等人[22]通过定义不同类型的社区变化,如出现、解散、增长和收缩,以及一组量化社区演变分析的变化的指标,从一系列网络档案中研究了网络社区的演变。引用网也做过类似的工作[9]。阿苏尔等人[2]引入了一系列关于社区和个人的事件来描述社区的演变。他们引入了度量标准来衡量社区和个人的稳定性、社交能力、影响力和受欢迎程度。Falkowski等人[5]提出在子群水平而不是顶点和边缘水平观察社会网络的时间变化。林等人[17]开发了一种基于交互空间的表示法来量化社区动态。他们通过最大化两个时间段内社区之间的交互相关性来建立社区进化。

相比之下,我们的工作本质上是互补的。我们的方法不是研究特定类型网络(社交网络或引用网络)的结构属性,而是旨在研究一般的网络社区网络,并集成从网络数据动态中提取的特征,以增强社区挖掘过程。在我们的方法中,不仅考虑了社区本身的演化,还考虑了每个社区内成员的演化,以使社区挖掘结果更加准确。此外,我们的调查还包括预测潜在的社区成员(如项目委员会),以及跟踪成员的进化特征。

3.框架

在这一部分,我们提出了基于异构网络演化的社区挖掘框架。如图1所示,该框架由五个主要组件组成:依赖于时间的关系提取模块、依赖于时间戳的分割模块特征提取模块模型构建模块后处理模块。在这里,我们给出框架的概述。我们将在学术网络的背景下,在随后的章节中详细阐述每个模块。这个框架的输入是一组数据源、领域知识和目标应用程序。该系统的目标是提取可用于特定应用的社区模型。

3.1时间相关关系提取

给定数据源,时间相关关系提取模块提取各种类型的对象以及它们之间的关系。与现有的关系提取方法(如超链接提取)不同,我们提取对象的类型及其关系以及相应的时间戳。例如,对于学术网络中的会议计划委员会应用,作者会议论文等不同对象以不同关系提取在一起,如“一篇论文”在“一个会议”中发表,某人是“一篇论文”的作者,某人是“另一个人”的合著者,某人是“一个会议”的计划委员会。同时,关系有效的相应时间段也被记录。例如,1999年在一次会议上发表了一篇论文。使用提取的信息,可以构建异构网络。在形式上,异构网络的定义如下。

定义1。【异构网络】异构网络H是8元组,其中1) V是一组节点,A是多组边;2) 是可用节点和边标签的有限字母表;3)s:A→V和t:A→V是表示一条边的源节点和目标节点的两个映射;4):V→:A→是两个地图描述节点和边的标签。

注意,这里网络中的每个节点代表一个对象,每个边代表两个连接的对象之间的关系。在这种情况下,两个对象之间可能有多个边,边的标签是时间戳、关系类型和关系权重。这里,关系的权重是基于两个连接的对象的共现来测量的。例如,一个异构网络如图2(a)所示,其中边的标签显示在左上角;边缘的时间戳和权重附属于每个边缘。这里边的权重是关系出现的次数。例如,两个作者之间的边的权重代表两个作者合著论文的次数。此外,每个节点都有自己的标签,列在左下角。请注意,任意两个对象之间可能有一条以上的边。

3.2依赖时间戳的分段

如上所述,异构网络中的每个边缘都有一个时间戳。为了监控对象的演化模式及其关系,我们需要在时间维度上区分这些关系。然而,在许多实际应用中,知道对象之间关系的确切时间可能不是必需的。例如,在会议计划委员会应用程序中,不需要知道某人在会议的会议计划委员会中的确切时间。相反,知道会议的年份就足够了。因此,对于不同的应用程序,用户可以定义对应用程序重要的任何时间粒度(如日、月、年等)。基于时间粒度,同一时间间隔内的对象和关系被合并在一起。然后,网络数据被表示为称为基于向量的异构网络的新型异构网络,其中每个边是向量w_{i}=[e_{1},e_{2},...,e_{k}],使得e_{i}表示在时间间隔t_{i}期间连接的对象之间的关系的权重。形式上定义如下。

定义2。【基于向量的异构网络】基于向量的异构网络N是表示为,其中每条边的标号为,r为两个顶点之间的关系,w_{i}为表示时间间隔序列中关系权重的向量

例如,给定会议计划委员会应用程序中基于年度的时间粒度,顶点代表诸如论文、会议、作者等对象,而边代表每年关系的权重。例如,在图2(b)中,两位作者之间的边界w_{i}= (2,1)表示两位作者在第一年和第二年分别合著了两篇论文。这里我们使用基于向量的网络表示有两个原因。首先,基于向量的网络的存储空间比网络图序列小得多,因为网络图在许多应用中可能非常大。其次,与网络图序列相比,基于向量的表示更加灵活。特别是我们将在后面看到的,在特征提取阶段,可以使用不同的时间窗口(图3)。

3.3特征提取

特征提取模块从基于向量的异构网络中提取特征。这是考虑网络演进和异构特性的主要步骤。对于异构属性,我们采用PopRank算法[19]对对象进行排序,并将排序值用作特征的一部分。等级值是基于不同类型对象之间的相似性传播获得的。同时,还有一些特征可以使用图的属性(如度和距离)直接从图中提取。基本上,为了表示异构网络的演变,我们提取了两组特征:基于快照的特征和基于增量的特征。基于快照的特征是指从基于向量的异构网络中提取的特征,方法是在所有向量的相同时间窗口中获取元素。另一方面,基于增量的功能表示基于快照的功能如何随时间变化。例如,给定1994年至2004年的学术网络数据,网络中的每个对象每年都有一个基于快照的特征;每连续两年,每个对象都有一个基于增量的特征。请注意,基于快照的功能可以使用时间窗口来定义。例如,我们可以将1994年到1997年的数据放在一起,得到1997年基于快照的功能,时间窗口大小为4,如图3所示。这里,每个对象的基于增量的要素实际上是两个连续快照中相应要素值的变化百分比。

3.4模型构建

现在可以基于使用上述提取技术提取的一组特征来构建一组社区模型。本文提出了一个由回归阶段多类分类阶段组成的两级社区模型。潜在的直觉是,在许多现实生活应用程序中,社区之间存在层次关系。例如,对于会议计划委员会社区,我们有顶级会议、二级会议和其他会议。而且,对于同级别的会议,有不同特点的社群。有些会议更侧重于理论,而其他会议更侧重于应用和工程,即使是在同一级别。其基本思想是,我们可以用回归模型得到社区之间的第一层次,并使用多类分类模型进一步区分回归无法分离的社区。

3.5后处理

可能存在依赖于应用程序的限制。最后一个组成部分,后处理,被提议来处理这样的约束。例如,对于会议计划委员会社区应用程序,不仅存在本地限制(如个别候选计划委员会成员的属性),还存在对整个社区的社区范围限制。这里的局部约束是指个体特征,如候选人的研究专长;而社区范围的限制是指整个社区的特征,例如个人计算机成员的数量、所有成员的覆盖区域以及会议的位置。局部约束可以在社区模型中建模,而社区范围的约束需要通过后处理来处理。

总之,我们提出了一个考虑到网络的动态性和异构性的社区建模框架。给定数据源,关系和时间戳被提取并建模为异构网络。基于用户定义的时间粒度,异构网络被转换为基于向量的网络表示。然后,基于基于快照和基于增量的特征构建社区模型,这些特征是使用基于向量的网络上的对象排序算法提取的

4.学术网络

在本节中,学术网络被用作一个例子来详细说明上述框架。请注意,本节中讨论的技术和模型也可以扩展到其他类型的网络。首先,我们解释了选择学术网络作为例子的原因。然后,描述了学术网络数据的特点。接下来,将介绍特征提取和社区模型构建的细节。最后,通过社区模型的两个应用来说明模型的有效性和后处理的重要性。

4.1为什么是学术网?

选择学术网络作为例子来说明上述框架的原因可以总结如下。

首先,学术网络是进化异构网络的一个典型例子。学术网络包含各种类型的对象,如论文、期刊、会议和作者。此外,对象之间有多种类型的关系。例如,涉及作者的关系可以是多种类型,如“的合著者”、“的同事”、“会议的共同服务”或“成员-主席”关系。还有,作者和会议的关系肯定和作者和作者的关系不一样。与此同时,学术网络随着时间的推移而演变。例如,每年都会有新的论文发表,其中包含新的作者和对现有论文的新引用。

其次,网上有大量高质量的学术网络数据,如学术出版物门户网站:acm数字图书馆、ieee explorer、dblp、CiteSeer等。所有论文、会议、期刊及其关系的时间戳也是可用的。此外,学术网络中还有多组社区数据。例如,有会议计划委员会、期刊编辑委员会、特殊兴趣小组,如sigmod、siggraph、sigir等。与这些社区相关的历史信息也可以从网上获得。如此大的数据源丰富了时态和异构特性,为构建我们的框架提供了理想的平台。

第三,除了局部约束外,学术网络中还存在丰富的特定领域约束。例如,考虑到会议计划委员会群体,除了对个别候选人委员会成员的限制之外,还有群体范围的限制,如多样性和覆盖面。这里的多样性是指项目委员会的所有成员在实际位置(隶属关系)和专业知识方面应该有有限的重叠。覆盖范围是指计划委员会的所有成员作为一个整体应覆盖会议所列的所有主题以及所有目标地理位置的限制。

4.2学术网络数据

在本节中,我们描述了将在本文其余部分中使用的学术网络数据的特征。这些数据来自图书馆数据集,其中包含1989年至2004年间计算机科学领域的100多万篇研究论文,以及65万名作者、1700次会议和480份期刊。这些对象之间的关系类型如图4所示。本文主要考虑五种类型的关系。它们是作者之间关系的“共同作者”,作者与论文之间关系的“作者”,论文与会议/期刊之间关系的“过程”,论文之间的“引用”关系,研究者/作者与会议/期刊之间的“服务”关系。该集合中总共有700多万个对象关系。

请注意,在当前版本的Libra中,没有项目委员会信息(“服务”关系)。所以我们提取这样的信息,并将其添加到我们的数据集中。表1显示了从Libra系统中提取的会议列表的相关信息。表1中每一列的语义如表2所示。请注意,这些会议是数据库和数据挖掘领域的领先会议。请注意,我们无法从网上收集所有历史会议计划委员会成员,因为一些网页不再可用。

由于依赖于时间的关系抽取已经在[19]中在Libra系统的上下文中进行了描述,我们将把注意力集中在特征抽取社区模型构建后处理模块上。

4.3特征提取

我们框架的目标是从学术数据中构建社区模型。具体来说,我们专注于构建会议计划委员会社区模型。因此,目标是抽取一组研究人员(Libra数据库中的作者)组成一个社区。在这一节中,我们着重于作者的特征提取。基本上,作者有两种类型的功能:基于快照的功能基于增量的功能

4.3.1基于快照的特征

如前所述,一些特征(如对象之间的距离)可以使用图论从基于向量的网络中直接提取,而其他特征可能需要在不同类型的对象和关系之间传播。在这里,我们首先回顾将用于提取基于传播的特征的PopRank算法[19]。然后,将讨论提取的基于快照的特征的列表。

提出了PopRank算法对异构关系网络中的网络对象进行排序。基本上,web对象的流行是使用不同类型的关系来传播的,其中不同的传播因子被自动分配给不同类型的关系。例如,要获得一篇论文的受欢迎程度,不仅要考虑论文的收集,还要考虑与会议、作者等其他对象的关系。

为了计算一个对象的流行度分数,PopRank模型考虑了该对象的流行度及其与其他对象的关系。我们使用以下公式来计算X类型对象的PopRank分数R_{X}:

其中R_{EX}是对象X的受欢迎程度,它是“随机对象查找器”仅使用这种类型的对象中的关系来找到该对象的概率;而R_{X}是“随机对象查找器”利用与其他类型对象的所有关系找到该对象的概率。ε是阻尼因子,\Gamma _{YX}是Y型物体到X型物体的关系的传播因子,M^{T}_{YX}是相邻矩阵。有关算法的详细信息,请参考[19]。

表3显示了针对单个作者的基于快照的示例特性列表,其中前五个特性可以使用针对数据库的查询直接提取。这些特征被称为基于查询的特征。最后三个特征是使用PopRank提取的,称为基于PopRank的特征。请注意,这些特征是从基于矢量的网络中提取的,带有时间戳和时间窗口。例如,给定大小为4年的时间窗口,即1999年的时间戳,使用1996年和1999年之间存在的对象和关系提取相应的基于快照的特征,如图3所示。例如,如果一个作者在1996年到1999年间发表了20篇论文,那么NumPaper特性的值被设置为20。请注意,使用PopRank计算的某些功能的值,如BSConf、AuthorRank和ExpertRank,是标准化的。因此,对于每个基于快照的功能,每个作者都有一系列的值。基于快照的特征提取算法如算法1所示。

4.3.2基于增量的功能

为了反映异构网络的发展,我们建议使用基于增量的功能。直觉是,作为一个会议项目委员会成员,作者通常不仅应该以前在该地区活跃,而且应该在那个时间点活跃。基于快照的功能可以反映作者在特定时间点的活跃程度,而基于增量的功能可以反映作者在特定时间段的活跃程度。算法2中显示了基于增量的特征提取算法。

给定同一作者在第t_{i}年和第t_{i+1}年的两组最新快照特征,表示为,基于δ的特征定义如下:

示例1:为了提取1999年作者的基于增量的特征,使用了1998年和1999年的两组最新的基于快照的特征,如图3所示。使用相应的数值,可以相应地计算基于特征增量的数值。类似地,可以提取其他基于增量的特征的值。最后,每个作者的基于增量的特征将会有一系列的值。

通过查看提取特征的属性,基于快照的特征和基于增量的特征可以分为三类:发布、社交和体验,如表3所示。在这里,发布特性是那些能够反映作者发布论文的能力的特性,比如NumPaper和AreaPaper。社会特征是指代表作者在研究合作方面有多活跃的特征,而经验特征反映了作者在组织会议或担任项目委员会成员或主席方面的经验。请注意,这里的BSConf被视为出版、社交和体验的组合功能。

4.4社区模型构建

在本节中,我们在会议计划委员会社区的背景下提出了一个两级社区模型。基本上,模型构建过程就是一个学习过程。也就是说,给定一个历史会议和相应的计划委员会成员的列表,目标是建立一个模型,根据其成员的特征来表征计划委员会。因此,给定一个会议和一个特定的时间戳,我们可以根据构建的模型推荐一个项目委员会成员列表。请注意,在这个模型构建过程中,我们使用历史会议计划委员会成员作为正面示例来训练模型。我们不使用负面例子的原因是,将任何没有被选为项目委员会成员的作者视为负面例子通常是不准确的。这是因为除了第3节中提到的对单个作者的限制之外,项目委员会团体还有某些团体范围的限制。两级社区模型由回归模型和多类分类模型组成。我们依次阐述它们。

4.4.1回归模型

回归模型的目标是给每个作者分配一个特定年份的分数,以衡量作者的质量。根据这个分数,我们可以决定他/她是否可以担任会议计划委员会成员,以及他/她可以参加哪些会议。直觉上,这里的分数代表了作者有资格担任项目委员会成员的最佳会议的PopRank,在表3中表示为BSConf特性。请注意,历史BSConf值可以提取为他在此之前使用查询服务的最佳会议的PopRank。然后,我们可以使用历史的BSConf值来预测下一年的BSConf。

为了获得每个作者的得分值,我们建议基于会议计划委员会成员的BSConf值的历史实例和相应的特征来构建回归模型。因为在不同的地区,会议PopRank值可能会有所不同。在本文中,我们通过对区域内的值进行归一化来为它们建立一个通用的回归模型。例如,我们分别为最佳数据库和数据挖掘会议分配等级值1。我们使用的算法是SVM Light的回归版本。

训练过程的基本思想是使用规范化的BSConf特征作为每个作者的标签。也就是说,回归模型是根据特定时间点{t_{1}}F'_{t_{1}}F'_{t_{1}-1}\delta '_{t_{1}}等所有其他特征为每位作者分配一个BSConf值。一个训练实例的例子是,其中最后一个值作为标签。请注意,回归模型是时间相关的。如果我们想为1999年建立一个回归模型,那么1999年之前的所有会议计划委员会成员都被用来构建模型。

一旦模型构建完毕,给任何一个具有F'_{t_{1}}F'_{t_{1}-1}\delta '_{t_{1}}特征的作者,我们可以给他/她打分。然后将分数与t_{1}+1时的会议PopRank值进行比较,并做出必要的决定。

4.4.2多类分类回归模型

可能会生成两个以上的会议,这些会议在分配的分数和会议PopRank值方面与作者匹配。由于不同的会议在选择项目委员会成员时有其自身的特点,因此多类分类模型可用于验证他/她能够担任项目委员会成员的会议。在本文中,我们使用了多级SVM Light.

类似于回归模型,历史会议中的每个项目委员会成员都被视为一个培训实例。使用两组快照功能和增量功能F'_{t_{1}}F'_{t_{1}-1}\delta '_{t_{1}}。但是,标签不是BSConf,而是对应的会议名称。请注意,多类分类模型是从PopRank值非常接近的会议列表中构建的。也就是说,构建模型是为了区分这些会议,其中计划委员会成员可能具有非常相似的BSConf值。

例如,基于Libra数据,我们为一系列数据库会议(如SIGMOD、VLDB和ICDE)构建多类分类模型,其中PopRank彼此非常接近。类似地,为数据挖掘会议PKDD、PAKDD和ICDM建立了另一个多类分类模型。通过这样做,我们可以成功区分PopRank值非常接近的会议。

一旦构建了分类模型,给定一个具有所有所需特征值的作者和一个候选会议列表(使用回归模型获得),我们就可以决定该作者有资格担任哪个会议的项目委员会成员。

4.5应用和后处理

在本节中,我们介绍会议计划委员会模型的两个应用。本节的重点是说明社区模型的有用性以及必要的后处理。

4.5.1会议PC建议

这是一个为预计将组织学术会议的专家设计的工具。它提供了自动推荐项目委员会成员名单的基本功能和项目委员会交互细化的高级功能。

给定会议的名称、相应的区域、会议的级别、计划委员会主席和预期成员的数量,基本推荐功能的工作如下。首先,将回归模型应用于研究人员的特征,仅选择输出分数在会议特定范围内的人员。从选定的研究人员中,多类分类器用于选择最匹配特定会议的研究人员集合。最后,应用了基于全局约束的剪枝技术。请注意,通常情况下,满足上述标准的研究人员数量远远超过主席指定的项目委员会成员数量。因此,我们引入以下两个目标和进一步修剪(后处理)的约束。

  • 给定作者图,其中每个顶点都是一个作者,如果两个作者是共同作者,或者他们共同服务于一个会议/期刊,或者他们有相同的隶属关系,则在他们之间有一个边。一组选定的计划委员会成员的多样性,表示为Div(A),定义为:,其中MinDis(ai,aj)是任何两个选定的计划委员会成员之间的最小距离。然后,目标是提取具有最大多样性的计划委员会成员候选人的固定大小子集。
  • 给定会议的目标主题列表,第二个目标是选择涵盖所有主题的计划委员会成员列表。推荐委员会成员的覆盖范围,表示为Cov(A),定义为:Cov(A) =,其中 1≤j≤k|Conf|表示会议的目标主题总数,是所选候选人的最大主题覆盖率。然后,目标是提取具有最大覆盖范围的计划委员会成员候选人的固定大小子集。
  • 制约因素是将后起之秀纳入个人电脑成员的问题。每年在一个特定的地区可能会有一些冉冉升起的星星。这些年轻的研究人员可能没有太多经验,但在高质量的会议和期刊上有很高的出版能力。在我们的方法中,我们为这些后起之秀保留了一些个人电脑委员会的席位。在本文中,我们使用以下简单的方法来识别新星。基于增量的平均特征值大于用户定义阈值的作者被认为是后起之秀。请注意,我们承认新星检测是一个复杂的问题。因此,对上述限制的改进被指定为未来的工作。

基于上述目标和约束,选择过程使用多目标优化遗传算法[7]来实现。正如我们将在实验结果中看到的,这种方法可以产生令人满意的推荐结果。请注意,项目委员会主席可以指派任何他/她认为合格但未被系统选中的人。他/她也可以从推荐名单中删除任何研究人员。之后,系统将生成满足上述所有约束的项目委员会成员列表。图5和图6分别描述了我们推荐系统的输入和输出截图。

4.5.2研究员演变跟踪

这是一个为研究所和大学的学术委员会设计的工具,用于评估研究人员和教员的研究绩效。例如,它可以作为评估是否提升一名教员的“工具”之一。研究员指数监控研究员的出版能力、社会活动和组织研究会议的经验。此外,研究人员的研究兴趣和专业领域可以跟踪。该工具的另一个重要功能是,相关领域知名研究人员的绩效演变模式可以作为新老研究人员的范例,以指导他们在未来成为成功的研究人员。

5 实验结果

我们现在给出实验结果来说明所提出的框架在上述学术网络应用中的性能。我们使用天秤座数据集作为我们的测试平台。本文使用的Libra数据版本包含三种主要类型的对象:论文、作者、学术会议或期刊。数据集的细节已在第4.2节中描述。

5.1计划委员会推荐

为了衡量会议计划委员会推荐应用程序的质量,我们使用部分可用数据作为源来构建社区模型,并使用剩余数据来评估推荐质量。类似于传统的分类质量度量,我们在下文中使用精确度和召回率作为性能指标:

请注意,上述质量度量是基于不同预测结果的平均值。原因是,给定一个会议和相关的约束,通过重复运行我们的算法,我们可能会得到一组不同的预测结果。在现实生活中,可能会有一组以上的项目委员会成员同时满足所有的约束条件。

推荐质量:表4显示了自动推荐结果的精度和召回率。结果根据会议领域进行了总结,见表的第一栏。例如,数据库区域包括三个会议vldb、sigmod和icde。此外,用于培训和测试的数据集也记录在此表中。在这组实验中,首先,以前的项目委员会成员被用来建立社区模型。然后,用紧接着的后续数据测试社区模型。例如,在表4的第一行中,我们使用1994年至2000年数据库区域中的所有PC成员作为训练数据来构建预测模型,并预测2001年的PC成员列表。请注意,精确度和召回率是特定区域内所有会议的平均值。从该表可以看出,所提出的社区模型可以产生高质量的结果。

距离的影响:在表5中,训练数据和测试数据之间的距离从1年到5年不等。这里,距离是指测试数据和最新训练数据的时间戳之间的差异。例如,表4中显示的所有实验结果都有一年的距离。如果我们将1994-1999年的数据收集作为训练数据,并使用构建的模型来推荐2001年和2002年的计划委员会成员,那么距离分别为2年和3年。请注意,对于特定的距离值,此表中的精度和召回率是通过取表1中列出的指定距离的所有七个会议的精度和召回率的平均值来计算的。很明显,当训练数据和测试数据之间的距离增加时,推荐的质量可能会略有下降。这一观察表明,会议计划社区正在随着时间的推移而演变。也就是说,如果训练和测试数据之间的距离足够大,社区模型就不能准确地反映当前社区的特征。结果,推荐质量的质量下降。

新会议的推荐质量:为了评估新会议的推荐质量,对特定会议使用通用模型。例如,表6显示了使用四种不同模型生成2005年特定数据挖掘会议“pakdd”的计划委员会成员列表的推荐质量。请注意,pakdd会议计划委员会信息在此过程中不使用,因为我们假设pakdd是一个新的会议。四个模型的构建如下。模式1:表1中所列的所有会议,巴基斯坦会议除外;(b)模型2:表1中除pakdd以外的所有数据挖掘会议;模式3:可持续发展会议;(d)模式4:数据挖掘会议,kdd和pakdd除外。

可以看出,后三种模型可以产生令人满意的推荐结果,而从所有会议(pakdd除外)构建的一般模型只能提供有限质量的推荐。

5.2研究人员进化跟踪

我们现在展示几个研究人员随着时间推移的不同类型的进化模式。在这里,对于每个研究者来说,BSConf特征值被用作一个综合了发布、社交和n d体验特征的整体度量。请注意,由于隐私问题,我们没有透露研究人员的姓名。图7显示了不同类型的进化模式。例如,研究人员1从1996年开始变得非常活跃,他/她的表现一直持续到2001年。他/她保持了稳定的表现。另一方面,研究员2自1994年以来一直保持稳定的表现。研究员3的表现一年比一年好。相反,研究员4的表现从2001年开始就一直下滑。要识别“后起之秀”,我们只需使用变化百分比。如果大于一个阈值,那么研究者就是后起之秀。例如,研究人员1在1996年被认为是一颗冉冉升起的新星,因为他的BSConf值从1994年到1996年急剧增加。请注意,BSConf值(图7)已被标准化为0到10之间的值。

6.结论

在本文中,我们提出了一个新的网络社区挖掘框架,它结合了网络数据的进化和异构特性以及它们的社区约束。我们用一个基于学术网络的真实世界的例子来说明我们的框架的有用性。在我们的方法中,我们提出了一种新的结构,称为基于向量的异构网络,以模拟网络对象和相关关系的异构性和演化特征。然后,使用PopRank算法[19]从该网络中提取特定社区的一组特征。之后,我们提出了一个两级社区模型。用真实的学术网络数据进行的实验表明,所提出的框架能够产生高质量的结果和关于网络演化模式的有趣见解。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
异质信息网络的研究现状和未来发展.pdf》是关于异质信息网络研究的一篇论文。异质信息网络是指网络的节点和边具有多样性的网络结构,如社交网络、生物网络和互联网等。 论文首先介绍了异质信息网络的定义和特点,并说明了异质信息网络研究的重要性。在现状分析,论文综述了过去几年来国内外学者在异质信息网络方面的研究成果和进展。研究现状包括了网络结构的建模方法、信息传播的模型和算法、节点影响力的评估以及网络动力学的研究等方面。 接着,论文提出了异质信息网络未来发展的几个方向。首先是进一步深入研究异质信息网络的建模方法,包括更加准确的节点属性和边属性的表示方法,以及节点分类和预测的算法优化等。其次是关注异质信息网络的信息传播问题,包括如何更好地预测和控制信息传播的路径和速度,以及如何利用节点影响力来增强信息传播效果。此外,还需要研究网络动力学在异质信息网络的应用,研究网络的发展趋势和演化规律。 最后,论文总结了异质信息网络研究的挑战和未来的发展方向。挑战包括网络数据的获取和处理、模型的复杂性和算法的可扩展性等方面。未来发展方向包括利用深度学习等新的技术手段来解决异质信息网络的问题,探索网络的潜在结构和规律,并将异质信息网络的研究应用于实际场景。 总之,《异质信息网络的研究现状和未来发展.pdf》详细介绍了异质信息网络的研究现状及未来发展方向,对于推动异质信息网络研究的深入发展具有重要的指导意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值