【论文翻译】异构信息网络中的图正则化平移分类

异构信息网络中的图正则化平移分类

摘要

异构信息网络是由多种类型的对象和链接组成的网络。近年来,人们认识到强类型异构信息网络在现实世界中普遍存在。有时,标签信息可用于某些对象。从这些标记和未标记的数据中学习,通过归纳分类可以很好地提取隐藏网络结构的知识。然而,虽然对同质网络的分类研究已有几十年的历史,但对异质网络的分类却一直没有深入的研究。

本文研究了共享同一主题的异构网络数据的传递分类问题。只有给定网络中的一些对象被标记,我们的目标是预测剩余对象的所有类型的标签。提出了一种新的基于图的正则化框架GNetMine,用于对具有任意网络模式和任意对象/链接类型的信息网络中的链接结构进行建模。具体地说,我们通过分别保持对应于每种类型链接的每个关系图的一致性来明确地尊重类型差异。然后引入有效的计算格式来求解相应的优化问题。在DBLP数据集上的实验结果表明,与现有的最新方法相比,该算法显著提高了分类精度。

1.引言

信息网络是由大量相互连接的数据对象组成的,在现实生活中无处不在。例如从书目数据中提取的合著者网络和论文引用网络,以及通过万维网中的超链接互连的网页网络。从如此庞大的网络数据集中提取知识最近引起了极大的兴趣[11][15][16][19]。有时,标签信息可用于某些数据对象。从标记和未标记数据中学习通常称为半监督学习[22][21][3],其目的是基于已知信息对未标记数据进行分类。分类有助于发现信息网络中隐藏的结构,深入了解每个对象所扮演的不同角色。事实上,像研究社区发现、欺诈检测和产品推荐这样的应用程序都可以看作是一个分类问题[11][15]。一般来说,分类可以分为两类:(1)归纳分类[10][11][22][21][19]:为给定的未标记数据预测标签;(2)归纳分类[9][15][12][18][3]:在整个数据空间中构造决策函数。在本文中,我们重点研究了网络数据中的一种常见情况:传递分类

目前对网络数据的归纳分类研究[9][10][11][15]主要集中在同质信息网络,即由单一类型对象组成的网络,如上所述。但在现实生活中,可能存在多种类型的对象,形成异构的信息网络。除了合著者网络和引文网络之外,书目数据自然地在论文、作者、会议、术语等之间形成一个网络。人们已经认识到,异构信息网络是普遍存在的,其中任何两种类型的对象之间都可能发生互联联系。

例1。书目信息网。书目信息网络通常包含四种类型的数据对象:论文、作者、地点(会议和期刊)和术语论文作者是通过“作者”与“作者”的关系联系在一起的。论文地点之间通过“发表在”与“发表”的关系联系在一起。论文术语之间是通过“包含”与“包含”的关系联系起来的。

作为对同质网络数据分类的自然推广,我们考虑了将异构网络数据分类为多个类的问题,每个类由共享一个共同主题的多类型数据组成。例如,书目信息网络中的研究社区不仅包含作者,还包含属于同一研究领域的论文、地点和术语。其他例子包括电影、导演、演员和关键词属于同一类型的电影网络,以及卖家、客户、物品和标签属于同一购物类别的电子商务网络。

分类的一般问题在文献中已有很好的研究。然而,由于数据的以下特点,强类型异构信息网络的转换分类更具挑战性:

  1. 网络结构的复杂性。在处理异构信息网络中的多类型网络结构时,一种常见的解决方案是将其转化为同质网络,并应用传统的分类方法[11][15]。然而,这种简单的转换有几个缺点。例如,假设我们想把论文分为不同的研究领域。现有的方法很可能从整个书目网络中提取一个引用网络。然后一些有价值的鉴别信息可能会丢失(例如论文作者和论文发表地点)。利用整个网络的另一个解决方案是忽略对象和链接之间的类型差异。然而,不同类型的对象自然具有不同的数据分布,不同类型的链接具有不同的语义,因此平等地对待它们可能是次优的。人们已经认识到[8][16]在挖掘异构信息网络时,应该考虑链接和对象之间的类型差异,以便产生更有意义的结果。
  2. 缺乏特色。传统的分类方法通常从数据的局部特征或属性中学习。然而,对于所有类型的网络数据,都没有自然的特征表示。如果我们将链接信息转换为特征,那么随着对象数量的增加,我们可能会生成非常高维的稀疏数据。此外,即使我们对异构信息网络中的某些对象进行了特征表示,但不同类型对象的特征在不同的空间中是不可比较的。这也是支持向量机、朴素贝叶斯和logistic回归等传统的基于特征的方法难以应用于异构信息网络的另一个原因。
  3. 缺少标签。许多分类方法需要合理数量的训练实例。然而,在许多实际应用中,标签是昂贵的。在一个异构的信息网络中,我们甚至不可能拥有所有类型的对象的完全标记子集来进行训练。某些类型的对象的标签信息很容易获取,而某些其他类型的对象的标签则不容易获取。因此,一个灵活的transductive分类器应该允许标签在不同类型的对象之间传播。

在本文中,我们提出了一种新的基于图的正则化框架来解决这三个难题,该框架仅基于任何类型对象的标签信息和链接结构,就可以同时对具有任意网络拓扑结构和对象/链接类型数的所有非属性、纯网络数据进行分类。通过保持每一类链接对应的关系图上的一致性,我们明确地考虑了链接和对象的类型差异,从而比传统的基于图的同构网络上的直推分类更有效地编码了类型信息。

本文其余部分的结构如下。在第二节中,我们简要回顾了现有的关于网络数据分类和基于图的学习的工作。在第三节中,我们正式定义了异构信息网络的传递分类问题。我们的基于图的正则化框架(用GNetMine表示)在第4节中介绍。第五节给出了实验结果。最后,我们在第6节中总结这项工作。

2.相关工作

我们总结了表1中的各种归纳分类方法,其中一个维度表示数据是否具有特征/属性,另一个维度表示不同类型的网络结构:从非网络数据到异构网络数据。我们提出的方法适用于异构、非属性的纯网络数据,这是最一般的情况,需要最少的信息量。

近年来,网络数据分类受到了广泛的关注。中心思想是从网络结构和局部属性(如果有的话)推断类标签。在对网页或文档进行分类时,可以使用Naıve Bayes[4]、logistic回归[9]、图正则化[20]等方法将局部文本特征和链接信息结合起来。所有这些方法都假设网络是齐次的。关系依赖网络[12]通过为每个感兴趣的变量建立条件模型来学习依赖结构时,尊重关系数据之间的类型差异,但仍然像其他关系学习方法一样依赖于局部特征。此外,统计关系学习通常需要一个完全标记的数据集进行训练,这在实际应用中可能很难获得。

Macskassy等人[10]提出了一种仅针对网络数据的关系邻居分类器。通过按邻域的大多数类对对象进行迭代分类,与更复杂的模型(包括概率关系模型[6][17]、关系概率树[13]和关系贝叶斯分类器[14])相比,该方法的性能非常好。Macskassy等人[11]进一步强调,同质性对于他们的方法在网络分类中的良好表现非常重要。

近年来,人们对挖掘异构信息网络的兴趣激增[7][2][8][1]。NetClus[16]使用排序聚类互增强方法生成由多类型对象组成的聚类。然而,聚类不能有效地利用已有的先验知识。Yin等人[19]探索了用于异构web对象分类的社会标记图。它们在标签web对象之间构造一个二部图来提高分类性能。然而,他们无法区分不同类型的链接。而且他们的方法局限于标签和web数据之间的特定网络模式,因此不能应用于任意的链接结构

同时,基于图的学习在翻译分类中得到了长期的普及。大多数方法都是基于局部特征在标记和未标记的实例上构造一个相似图来编码实例之间的相似性。然后,他们设计一个学习者来保持数据几何结构的平滑性和一致性。Zhu等人[22]用一个高斯随机场模型来描述这个问题。Zhou等人[21]提出让每个点迭代地将其标签信息传播给邻居,以确保局部和全局的一致性。当局部特征在信息网络中不可用时,基于图的方法有时可以利用固有的网络结构来扮演亲和图的角色。然而,传统的基于图的学习方法主要针对覆盖所有实例的齐次图,不能很好地区分多类型链接和对象的不同语义。本文针对异构网络数据的特点,对基于图的学习框架进行了扩展

3.问题定义

在本节中,我们将介绍几个相关的概念和符号,然后正式定义问题。

定义1。异构信息网络。给定m种数据对象,表示为
,图G=〈V,E,W〉 称为异构信息网络,如果
m≥2,E是V的任意两个数据对象之间的链接集,W是链接上的权值集。当m=1时,G退化为一个齐次信息网络。

定义2。分类。给定一个异构信息网络G=〈V,E,W〉 ,类被定义为G′=〈V′,E′,W′〉,其中V′⊆V、E′⊆E。。注意,V′还包含从的多种类型的对象。

定义2如下[16]。请注意,异构信息网络中的类实际上是一个子网络,其中包含相互密切相关的多类型对象。现在我们的问题可以形式化如下。

定义3。异构信息网络的归纳分类。给定异构信息网络G=〈V,E,W〉,数据对象的子集V′⊆,用Y标记表示每个对象属于哪个类的值,预测所有未标记对象V−V′的类标签。

在多类分类任务中,我们设计了一套一对一的软分类器。假设类的数目是K,对于任何对象类型,我们试图计算一个类指示矩阵其中每个测量每个对象属于k类的置信度。然后我们可以通过在的第p行中找到最大值来将类型中的第p个对象分配给类。

在异构信息网络中,可以建立一个关系图,对应于两类数据对象之间的每种连接关系。注意,i=j是可能的。设是对应于图关系矩阵。的第p行和第q列中的元素表示为,表示链接上的权重。有很多方法可以定义链接的权重,也可以结合领域知识。一个简单的定义如下:

这里我们考虑无向图,例如
为了对标签信息进行编码,我们基本上设置了一个向量,对于每个数据对象类型,使: 

对于每个类k∈{1,...,k},我们的目标是从,i,j∈{1,...,m}中推断出一组

第四章 基于图的正则化框架

在本节中,我们首先描述我们方法的直觉。然后,我们提出了一个基于图的正则化框架的问题。最后,提出了求解优化问题的有效计算方案。

4.1直觉

考虑图4.1中一个简单的书目信息网络。四种类型的对象(论文、作者、会议和术语)通过多类型链接(用实心黑线表示)互连,如示例1所述。假设我们想把他们分成研究群体。标记的对象是着色的,而未着色对象的标签是未知的。鉴于作者A1、论文P1和会议C1属于数据挖掘领域的先验知识,很容易推断出作者A2(撰写论文P1)和术语T1(包含在P1中)都与数据挖掘高度相关。类似地,作者A3、会议C2以及术语T2和T3可能属于数据库区域,因为它们直接链接到数据库论文P3。对于论文P2,事情变得更加复杂,因为它与标记和未标记的对象都链接在一起。属于某一类的置信度不仅可以从标记对象(会议C1和作者A4)转移,还可以从未标记对象(作者A2和A3,术语T1、T2和T3)转移。分类过程可视为知识在整个网络中传播的过程,如图4.1所示,粗阴影箭头表示可能的知识流。对象x与k类的其他对象之间的链接越多,x属于k类的可信度就越高。因此,标记对象作为先验知识的来源。尽管这种直觉本质上是在网络上保持一致性的,这与[10]和[21]类似,但由于信息的类型化,异构信息网络中的互联关系更加复杂。通过不同类型的链接进行的知识传播包含着不同的语义,因此应分别加以考虑。

这样,我们的框架是建立在一致性假设的基础上的,即两个链接的对象可能类似。对标记对象的类预测应该类似于他们预先指定的标签。为了考虑链接和对象之间的类型差异,我们保证在与每种类型的链接分别对应的每个关系图上保持这种一致性。我们的直觉如下:

  1. 如果x_{ip}x_{jq}连接在一起,即权重值,则属于k类、的两个对象x_{ip}x_{jq}的估计置信度应该相似。
  2. 置信度估计应该类似于基本真值

4.2算法

对于每个关系矩,我们定义一个大小为n_{i}\times n_{i}的对角矩阵的第(p,p)元素是的第p行的和。在上述讨论之后,应该与每个关系图中的链接信息和先验知识尽可能一致,因此我们尝试最小化以下目标函数:

其中D_{ij,pp}的第(p,p)个元素,D_{ji,qq}的第(q,q)个元素。目标函数(4.1)中的第一项是表示第一直觉的平滑度约束。该术语通过进行规范化,以减少节点受欢迎程度的影响。换句话说,我们可以在一定程度上抑制流行节点在置信度估计中的主导作用。在传统的基于图的学习中采用了归一化技术,其有效性得到了很好的证明[21]。第二项最小化了预测结果和标签之间的差异,反映了第二种直觉。

不同条款之间的权衡由正则化参数\lambda _{ij}\alpha _{i}控制,其中0≤\lambda _{ij}<1,0<\alpha _{i}<1。对于∀i,j∈{1,...,m},\lambda _{ij}>0表示对象类型Xi和Xj是联系在一起的,并且考虑到了这一关系。\lambda _{ij}越大,对象类型之间的关系的值就越大。例如,在书目信息网络中,如果用户认为作者与论文之间的联系比会议与论文之间的链接更可信、更有影响力,那么与作者与论文关系对应的\lambda _{ij}应设置大于会议文件的链接,而分类结果将更多地依赖于作者与论文的关系。同样,在某种程度上,\alpha _{i}的值在一定程度上衡量用户对对象类型标签的信任程度。[8]中采用了相似的策略来控制不同类型的关系和对象之间的权重。但是,我们将在第5节中显示,参数设置不会对算法的性能产生显著影响。

 

为了便于算法推导,我们定义了的规范化形式:

对于简单的代数公式,(4.1)的第一项可以重写为:

然后我们可以用下面的形式重写(4.1):

4.2.1与基于同质图的学习的联系

在这里,我们首先证明了我们算法的同质版本与基于图的学习方法是等价的[21]。然后在异构信息网络上,给出了算法与文献[21]的联系和区别。

我们首先定义,其中是大小为n_{i}\times n_{i}的单位矩阵。注意,是对象类型上齐次子网的规范化图Laplacian[5]:

引理1。在同质信息网络中,目标函数(4.4)简化为:
.

只需在函数(4.4)中设置m=1即可进行证明。很容易看出,我们算法的齐次版本等价于[21]的目标函数。

当信息网络是异构的时,我们可以把所有类型的对象看作一个整体。我们定义:

其中是所有1的n_{i}维列向量。我们进一步构造一个矩阵,对应于两个不同对象类型之间的每种类型的关系,如下所示:

,设为n×n对称矩阵,其中每一行/列对应一个对象,其阶数与中的阶数相同。与对象类型对应的行和列中的元素等于,其他所有元素都是0。这也适用于i=j

引理2。在异构信息网络上,目标函数(4.4)等价于:

其中

证明可以通过分别考虑目标函数(4.4)中 i≠j 和 i=j 的每一项,然后将它们相加来完成。引理2表明,我们提出的GNetMine算法与齐次数据上基于图的学习框架[21]具有一致的形式,其中H被归一化图Laplacian L[5]代替。此外,我们尊重多类型链接的不同语义,将图正则化分别应用于每类链接对应的关系图,而不是应用于整个网络。不同的正则化参数λij还提供了更大的灵活性,可以结合用户对所有类型关系中对象类型之间的关系值的偏好。然而,即使将所有\lambda _{ij}设置为相同,我们也可以看到,只要至少有一种类型的对象通过多种类型的关系链接到其他对象,H就不同于整个网络上的规范化图Laplacian L[5]。

4.2.2闭式解

很容易检查是半正定的,也是半正定的。我们现在证明也是半正定的。证明。回想一下,我们定义:

可以观察到,与图Laplacian[5]的形式相同,其中是一个对角线矩阵,其条目是的列(或行,因为是对称的)和。所以是半正定的。因此

是半正定的。

这样,是半正定的。我们进一步检查了目标函数(4.4)的Hessian矩阵,该矩阵很容易从方程(4.5)中导出:

的加权和,也是半正定的。由于所有i的\alpha _{i}> 0,我们得出是正定的。因此,目标函数(4.4)是严格凸的。唯一的全局最小值是通过对每个求微分(4.4)得到的:

对所有 i 使得:

最后,我们通过求解以下线性方程组给出了封闭形式的解:

可以证明是正定可逆的。

4.2.3迭代解

虽然得到了封闭形式的解,但有时迭代解更可取。基于等式(4.6),我们推导出算法的迭代形式如下:

  • 步骤0:对于∀k∈{ 1,...,K},∀i∈{ 1,...,m},初始化置信估计和t = 0。
  • 第一步:根据当前的,计算:

    对于∀k∈{ 1,...,K},∀i∈{ 1,...,m}
  • 第二步:重复第一步,t = t + 1,直到收敛,即直到对所有i变化不大。
  • 第三步:对于每个i∈{ 1,...,m},将类别标签分配给类型的第p个对象,如,其中

根据类似于[21]的分析,可以证明迭代算法收敛到封闭形式的解。迭代解可视为[21]的自然延伸,其中每个对象迭代地将标签信息传播给其邻居,直到达到全局稳定状态。同时,我们通过使用分别对应于每种类型的链接的不同归一化关系图而不是覆盖所有实例的单个图来明确区分多类型链接和对象之间的语义差异。

4.3时间复杂度分析

我们在这里分析迭代解的计算复杂度。步骤0需要O(K|V|)时间进行初始化,其中K为类数,|V|为对象总数。在步骤1的每次迭代中,我们需要处理每个链接两次,一次是针对链接两端的对象。我们需要O(K|V|)时间来将标签信息合并到中。因此每次迭代的时间是O(K(|E|+|V|)),其中|E|是信息网络中的链接总数。最后,计算步骤3中的类预测结果需要O(K|V|)时间。因此,迭代算法的总时间复杂度为O(NK(|E|+|V|),其中N是迭代次数。

封闭形式解的时间复杂度取决于特定的网络结构。由于篇幅限制,我们省略了分析。一般来说,迭代解的计算效率更高,因为它绕过了矩阵求逆运算。

毕竟,分类任务是离线完成的,所有对象都可以进行一次分类,并将结果存储起来以备将来查询。

第五章实验结果

在这一节中,我们给出了一个基于图的正则化框架在真实异构信息网络DBLP上的有效性的实验研究。如前所述,我们试图将书目数据分类到研究社区中,每个社区都包含与同一领域密切相关的多类型对象。

5.1数据集

我们提取了DBLP数据集在四个方面的子网络:数据库、数据挖掘、信息检索和人工智能,自然形成四个类别。通过选择每个领域的五个代表性会议、在这些会议上发表的论文、这些论文的作者以及出现在这些论文标题中的术语,我们获得了由论文会议作者术语四种类型的对象组成的异构信息网络。在这个异构的信息网络中,我们有三种类型的链接关系:论文会议论文作者论文术语。我们使用的数据集包含14376篇论文、20次会议、14475名作者和8920个术语,共有170794个链接。通过使用我们的GNetMine算法,我们可以同时对所有类型的对象进行分类,而不管我们标记了多少类型的对象。

为了评估准确性,我们使用了4057名作者、100篇论文和所有20次会议的标记数据集。有关已标记数据集的更多详细信息,请参考[7] [16]。在接下来的部分中,我们随机选择标记对象的子集,并使用它们的标签信息作为先验知识。分类精度通过与其余标记对象的手动标记结果进行比较来评估。由于术语甚至很难手动标注,即许多术语与多个领域密切相关,因此我们在此没有评估术语的准确性。

5.2用于比较的算法

我们将GNetMine与以下最先进的算法进行了比较:

  • 具有局部和全局一致性的学习(LLGC)[21];
  • 加权投票关系邻居分类器(WVRN)[10][11];
  • 仅基于网络链接的分类(nLB) [9] [11]

LLGC是一种基于图的直推式分类算法,如果我们利用内在的网络结构来发挥亲和图的作用,它也是GNetMine的齐次约简。加权投票关系近邻分类器和基于链接的分类是两种流行的网络数据分类算法。由于本地属性/特征在我们的问题中不可用,所以我们使用基于链接的分类器(nLB)的网络唯一衍生。根据[11],nLB基于相邻信息为每个节点创建一个特征向量。

请注意,上述算法都不能直接应用于异构信息网络。为了使所有的算法都具有可比性,我们可以通过两种方式将一个异构的信息网络转化为一个同构的信息网络:(1)忽略对象之间的类型差异,将所有对象视为同一类型;或者(2)如果对象类型被部分标记,则在一个单一类型的对象上提取同质子网络。我们在准确性研究中尝试了两种方法。在我们的实验中使用了NetKit-SRL[11]的开源实现。

5.3准确性研究

在本实验中,我们选择作者论文上的标签来测试分类的准确性。为了解决标签稀缺问题,我们随机选择(a%,p%) = [(0.1%,0.1%),(0.2%,0.2%),...,(0.5%,0.5%)]的作者和论文,并使用其标签信息进行直推式分类。对于每个给定的(a%,p%),我们在10次随机选择中平均结果。请注意,这里极小比例的标记对象很可能是断开的,因此我们甚至可能无法提取一个完全标记的子网络进行训练,这使得许多最先进的算法不适用。

由于齐次LLGC算法只有一个α和一个λ,因此在模型选择中只有比率\frac{\alpha }{\lambda }是重要的。\frac{\alpha }{\lambda }通过搜索网格{0.01,0.05,0.1,0.5,1,5,10}来设置,其中\frac{\alpha }{\lambda }= 0.5时获得最佳结果。对于GNetMine,我们不认为任何对象/链接类型在这里特别重要,并使用与LLGC相同的参数集,即\alpha _{i}= 0.1,\lambda _{ij}= 0.2,∀i,j ∈ {1,...,m}。这可能不是最好的选择,但足以显示GNetMine的有效性。由于标签信息是在作者和论文上给出的,wvRN、nLB和LLGC会议的结果只能通过忽略对象和链接之间的类型差异来获得,用(A-C-P-T)表示。在对作者和论文进行分类的同时,我们还尝试以不同的方式构建同质作者-作者(A-A)和论文-论文(P-P)子网络,其中为作者呈现的最佳结果由共同作者网络给出,而为论文呈现的最佳结果是通过链接两篇在同一会议上发表的论文而生成的。我们在表5.1、5.2和5.3中分别给出了作者、论文和会议的分类精度。

在对作者和论文进行分类时,有趣的是,wvRN和nLB在作者-作者和论文-论文子网络上的性能优于在整个异构信息网络上的性能,这验证了使用同构数据对于这种同构关系分类器的重要性。然而,如前所述,从原始异构网络到同构子网的转换会导致一些信息丢失。并且在同构子网络中只能使用一种类型的标签信息,即使另一种类型的对象的先验知识是可用的。

当考虑整个异构信息网络(A-C-P-T)时,任务实际上变得更具挑战性,因为对象的总数上升到14376(论文)+20(会议)+ 14475(作者)+ 8920(术语)= 37791,其中最多(14376(论文)+ 14475(作者))× 0.5%/37791 = 0.4%的对象被标记。类似的结果已有报道[11],当标记对象的百分比小于20%时,分类精度可能会低于随机猜测(此处为25%)。因此,由于缺少标签,wvRN和nLB的性能较差。而将标注比例从0.1%提高到0.5%,对提高nLB的准确率并没有太大的影响。

总的来说,GNetMine通过向有标签的作者和论文学习,在所有类型的对象上表现最好。尽管所有类型的对象和链接的参数都设置为相同的值,但GNetMine仍然优于其同构约简LLGC,因为它在分别对应于每种类型的链接的每个子图上保持一致性,并最小化聚合错误,从而以更有组织的方式对异构网络结构进行建模。

5.4模型选择

\alpha _{i}\lambda _{ij}是GNetMine中控制不同项相对重要性的基本参数。在之前的实验中,我们根据经验将所有的\alpha _{i}设为0.1,所有的\lambda _{ij}设为0.2。在这一部分,我们试图研究参数对GNetMine性能的影响。由于作者和论文都有标签,与作者(用\alpha _{a}表示)和论文(用\alpha _{p}表示)相关联的\alpha _{i},以及与作者-论文关系(用\lambda _{pa}表示)相关联的\lambda _{ij}在经验上比其他参数更重要。所以我们固定所有其他参数,让\alpha _{a}\alpha _{p}\lambda _{pa}变化。我们也相应地改变LLGC中的α和λ。图5.1显示了作为参数函数的三种对象(作者、论文、会议)的平均分类精度,标记了(a%,p%) = (0.5%,0.5%)作者和论文。

可以观察到,在很大的参数范围内,GNetMine获得了比所有其他算法显著更好的性能,包括其均匀约简LLGC,其中参数以相同的方式变化。有趣的是,\alpha _{a}的精度曲线不同于\alpha _{p},说明作者和论文在分类过程中确实扮演了不同的角色。从\lambda _{pa}的精度曲线可以看出,设置\lambda _{pa}大于所有其他\lambda _{ij}(设置为0.2)可以提高精度。这是因为增加λ增加了两种标记数据之间的知识传播,这是有益的。

总体而言,参数选择不会严重影响GNetMine的性能。如果用户对某些类型的链接的重要性有所了解,则可以相应地调整参数以模拟网络的特殊特征。

第六章结论

在本文中,我们开发了一个新的基于图的正则化框架来解决异构信息网络上的直推分类问题。我们提出,不同类型的对象和链接应根据不同的语义分别对待,这一点得到了理论和实践的证明。通过应用图正则化来保持与每种类型的链接分别对应的每个关系图的一致性,并最小化聚集误差,我们充分利用多类型的链接信息来预测每个对象的类标签。通过这种方式,我们的框架通常可以应用于具有任意模式的异构信息网络,该模式由许多对象/链接类型组成。在真实DBLP数据集上的实验表明,该方法优于现有算法。

该框架通过标记一些随机选择的对象来对未标记的数据进行分类。然而,正如在过去的许多研究中观察到的那样,标签的质量会显著影响分类结果。在未来,我们计划自动检测信息最丰富的对象,如果它们被标记,这可以导致更好的分类质量。可能具有高等级或位于子网络中心的对象可能是很好的候选对象。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值