异构信息网络的领域自适应分类
摘要
异构信息网络(heterogeneousinformationnetworks,HINs)是一种普遍存在的结构,它能够描述复杂的关系数据。由于HINs的复杂性,很难获得足够的标记数据,阻碍了HINs的分类。领域自适应技术在图像和文本中得到了广泛的应用,但其异构性和复杂的语义特性给基于HINs的领域自适应分类带来了特殊的挑战。一方面,HINs涉及多个层次的语义,这就要求在它们之间进行域对齐。另一方面,在领域相似性和可区分性之间的权衡必须精心选择,因为领域不变的特征已经被证明是同质的和无信息的分类。本文提出多空域自适应分类(MuSDAC)来处理HINs上的数据挖掘问题。具体地说,我们利用多通道共享权重GCN,将HIN中的节点投影到多个空间,在多个空间中进行成对对齐。此外,我们提出了一种启发式抽样算法,有效地选择具有可分辨性的信道组合,并采用移动平均加权投票方案对所选信道进行融合,使传输和分类损失最小化。在两两数据集上的大量实验不仅证明了我们的模型在HINs领域自适应分类方面的性能,而且证明了单个组件的贡献。
1简介
异构信息网络(HIN)是最流行的数据结构之一,被广泛用于存储复杂的关系数据。HINs中的节点分类是一项重要但同样具有挑战性的任务,因为HINs包含各种类型的节点和边,因此具有丰富的语义。到目前为止,已经提出了许多表示学习或集体分类模型来支持HINs上的半监督分类[Zhang et al.,2018;Wang et al.,2019]。
然而,监督模型高度依赖于标记数据,对于像HINs这样的复杂结构,这可能是昂贵的,甚至是不可能获得的[Jin等人,2020]。因此,当HINs上的标记数据很少时,我们直觉地求助于迁移学习。
域适应(DA),它通过最小化域差异,支持从具有足够标记数据的源域向未标记目标域转移学习[Mansour等人,2009;Long等人,2015],已经引起了计算机视觉(CV)和自然语言处理(NLP)的兴趣[Long等人,2018;Rozantsev等人,,2018年]。域自适应方法,例如最大平均差异(MMD)[Dziugaite等人,2015]和生成对抗网络(GAN)[Goodfoll等人,2014],能够对齐不同域的嵌入分布,从而能够传输下游机器学习模型。因此,我们利用DA技术作为解决HIN上转移学习问题的潜在解决方案。
HINs上的许多嵌入模型应用了基于元路径的多通道架构[Sun et al.,2011],其中节点通过多个GNN通道投影到多个嵌入空间,然后最终融合到下游任务的单个表示集合[Zhang et al.,2018]。虽然HINs的可转移分类似乎可以通过简单地向这样的体系结构添加正则化来实现,以最小化分布差异,但应该注意的是,HINs的异构性和丰富的语义带来了特定的挑战:
- HINs具有多层次的语义,其中需要进行域对齐,这使得很难在单个嵌入空间中同时对齐它们。
- 域自适应强调了域不变特征,这些特征可能是同质的,对分类来说不具信息性[Chen等人,2019]。另一方面,表示分类的特征通常是域变量。因此,我们得出结论,在数据仓库的任务中,特别是在分类困难的HINs上,需要在传输和分类、域相似性和可分辨性之间进行权衡。
为了解决这些问题,本文提出了多空间域自适应分类(MuSDAC),它采用多通道共享权重GCNs[Kipf and Welling,2016]将源域和目标域中的节点投影到多个嵌入空间中,并应用多空间对齐,从而丰富了HINs的语义层次在每个空间内独立保存。这样,每个空间只需要一对域对齐,而不是多对域对齐。
此外,针对上述问题,我们提出了一种两级选择策略,有效地聚合嵌入空间,以保证域的相似性和可区分性。首先,我们利用启发式组合抽样算法,一个多项式时间算法,选择空间具有明确的类边界,减轻了需要组合搜索的空间。接下来,我们提出移动平均加权投票,这是一种精心融合所选空间的加权方案,从而最小化传输和分类损失。我们在三对网络上定量地评估MuSDAC,其中MuSDAC在可转移分类上优于各种基线。我们还进行了模型分析和可视化,以验证各个模型组件的贡献。
我们的贡献总结如下:
- 我们利用MuSDAC解决HIN间可转移分类的未探索问题,MuSDAC采用多通道共享权重GCN[Kipf and Welling,2016],并应用多空间对齐来实现不同语义空间上的域自适应。
- 为了实现传输和分类之间的折衷,我们设计了启发式组合采样算法来有效地挑选有区别的组合,并应用移动平均加权投票来组合所有通道的输出。对多空间对齐中的加权投票进行了理论分析。
- 我们进行定量和定性实验,MuSDAC通过超越竞争对手来证明自己。
2相关工作
2.1 HIN分类
许多模型设计用于对HIN进行分类[Hosseini等人,2018]。[Zhang et al.,2018]提出了Graphineception,通过学习深层关系特征来处理HINs的集体分类。此外,将HINs中的节点投影到低维空间的异构网络嵌入模型也支持分类[Gui et al.,2016;Dong et al.,2017;Shi et al.,2018;Lin et al.,2019]。HAN[Wang et al.,2019]学习基于层次注意的表示,而NEP[Yang et al.,2019]利用分布式嵌入来表示对象和动态组合的模块化网络来建模它们的复杂交互。但是,由于域差异,这些模型可能在没有标记实例的新域上失败。
2.2域自适应
在CV和NLP等领域中,域自适应被广泛应用于不需要人工标注的不同相关域之间的迁移学习。最近的研究主要集中在通过正则化(如MMD或GAN)最小化实例的分布差异来学习不同域中实例的域不变特征。[Long等人,2018年;Rozantsev等人,2018年]
据我们所知,DANE[Zhang et al.,2019]是网络表示领域中唯一考虑同质网络间域自适应的工作。然而,DANE无法处理HINs中丰富的语义,因为共享权重GCN体系结构是专门为同构网络设计的。
3问题陈述
3.1定义
定义1(异构网络[Shi等人,2016])。异构网络G由n种类型的节点的节点集以及带有m种类型的边的边集组成。
在异构网络中,元路径是形式的路径,它定义了两个节点之间的复合关系。
定义2(多信道网络[Zhang等人,2018])。给定作为节点类型挂起分类。我们将HIN分解为一个具有元路径集的多信道网络,其中每个信道是一个包含通过某种元路径连接的节点的齐次网络。由此产生的网络被定义为,其中元路径邻接矩阵表示连接中每个节点对的元路径的数目。
3.2问题
HINs上的可转移分类给定两个HINs和,其中共享相同的节点和边类型,X表示的特征,HINs上的可转移分类旨在利用两个网络上的结构信息以及上的标签来预测上的标签。
4建议方法
4.1 MuSDAC概述
在本节中,我们介绍了一种HINs上的无监督域自适应分类模型MuSDAC(概述见图1)。在详细说明各个组件的细节之前,我们首先介绍通用管道。
图1:MuSDAC的概述,它使用多通道共享权重GCN来处理基于元路径的HIN,并应用多空间对齐来识别DA分类任务的可转移语义信息。
多通道共享权GCN
为了处理异构信息,我们将源和目标HINs 分解为具有元路径集Φ的多通道网络,并通过N个独立的GCN将它们馈送[Kipf and Welling,2016]生成原始的通道嵌入集
其中,,。在信道l中,我们应用一个共享参数集,将两个网络中的节点投影到相同的嵌入空间。
多空间对齐
为了提取HINs中的复杂关系特征,我们通过一维卷积将C的一个子集与组合Z⊆{1,···,N}和Z ≠ ∅结合起来[Zhang et al.,2018]。我们将表示为具有组合Z的聚合信道的嵌入。
在这里,我们利用算法1生成一组组合,包含具有可分辨性的M=O(N)组合,这将在第4.2节中详述。然后将节点重新投影到几个新的嵌入空间,得到聚合的信道嵌入集,其中是一个嵌入矩阵。
在j-聚合信道中,我们将表示为源和目标实例的嵌入,并在此基础上采用分类器进行预测
其中是第j个通道中分类器的参数。
模型学习
定理1(领域自适应分类(DAC)[Ben–David等人,2010])。目标域预测误差的上界可以通过最小化来减小:(a)源域假设h的误差;(b)两个域之间的距离,它度量域差异;(c)理想联合假设h*的误差λ:
根据定理1,我们采用DAC,其中通过最小化上的分类损失以及和之间的距离,可以减小第j个信道中目标标签的预测误差:
其中CE是交叉熵函数,MMD是测量分布距离的最大平均差,γ是控制梯度的超参数。
在中,最终的预测是对所有分类器的输出进行加权投票,加权向量为θ。总损耗也是来自聚合信道的DAC损耗的加权和,其中采用相同的权重θ。
4.2启发式组合抽样算法
在这一节中,我们将介绍我们的启发式组合抽样算法的设计。在介绍算法之前,我们首先介绍并验证与算法设计相关的一个重要假设。
可分辨性估计的假设
受[Rafailidis and Weiss,2019]的启发,我们正式定义了组合的可区分性和域相似性。
定义3。给定Z,通过根据等式4最小化,我们通过以下方式测量Z的可分辨性和域相似性:
定义4(子组合)。是Z iff ⊂Z∧ ≠∅的子组合。我们将Z的子组合集表示为S(Z)。
基于这些定义,我们提出了估计的一个重要假设。
假设1(可分辨性估计)。对于Z和的组合,满足:
简言之,可以通过具有最高域相似度的Z子组合的可分辨性来估计。
假设1分析
在本节中,我们将从理论和实证的角度对假设1进行分析。
定义5(强调嵌入矩阵中的特征)。给定一个矩阵M,应用奇异值分解(SVD),得到,定义(第i奇异向量)为特征提取,相应的奇异值为特征重点。M中包含的特征定义为。
在域自适应中,表示域不变量的奇异向量更容易被强调。此外,其中一些可能会被过度强调,从而获得过高的奇异值。我们将其称为“陷阱向量”,因为它们提高了域的相似性,而牺牲了其他奇异向量,这些奇异向量体现了对区分性至关重要的丰富语义[Chen等人,2019]。
基于这一现象,我们提出了如何在聚集过程中提取特征。将表示为包含在具有组合Z的聚合信道中的特征:
其中是指将Z中的所有通道聚合后的特征,是将特征映射到相应嵌入空间的函数。在对特征进行滤波时,的组合通常有利于域自适应。然而,这种组合容易受到“陷阱向量”的影响,因为它可能会对域不变量施加过多的权重[Chen等人,2019],并扼杀其他渠道的语义。在这种情况下,低表示低,反之亦然。因此,我们声称可以用来近似,因为最有可能在域适配中被提取,在域适配中很可能产生“陷阱向量”。
或者,从经验的角度来看,我们在图2中形象化了和之间的关系。结果表明,在大部分时间近似于,从而验证了假设1。
图2:Z和的可分辨性之间的关系。45分中有31分(68.9%)位于| y−x |<0.05。
算法:启发式组合抽样
为了选择具有高可分辨性的线性组合数,一种简单的方法是最小化每个组合Z的等式4(称为预测试),并比较。然而,这种枚举将带来禁止性的复杂性(O(2N))。或者,我们设计一个启发式算法来选择组合Z,这在算法1中给出。在第一次迭代中,我们对中的组合(| Z |=1,∀Z∈)进行预测试,然后我们尝试为中的每个组合添加一个新的信道,并根据假设1预测(第7-13行)。最后,具有高的线性组合数将形成新的,以此类推。
4.3移动平均加权投票
在本节中,我们介绍我们的加权投票方案。在引入决定θ的方法之前,我们首先扩展了DAC理论,该理论将投票权重θ与分类误差联系起来。
加权投票的理论基础
定理1证明了在无监督域自适应中,数模转换器适用于单个嵌入空间,而在多个嵌入空间中,它仍未被探索用于域自适应。因此,我们将其扩展到存在多个嵌入空间的场景。
定理2(多空间域适配)。目标标签中预测误差的上界可以通过最小化所有嵌入空间中DAC损失的加权和来减小:(λ作为常数处理[Chen等人,2019])
证明。虽然优化目标j是单个组合中数模转换器损耗的加权和,而不是组装的最终标签上的损耗,但我们发现,由于一致的权重θ,预测误差由目标L通过詹森不等式和定理1上限。
移动平均策略
由于定理2在最终预测误差和单个嵌入空间的误差之间建立了联系,因此我们关注θ的适当选择。为了获得与每个通道的性能相对应的投票向量θ,我们首先通过它们的损失值来计算:[朱等,2017]
其中η是超参数。η越高,之间的差异越大。然而,直接使用可能会导致权重优势,在这种情况下,融合的组合说明了更低的损失,并获得了压倒性的投票权,抑制了其他可能有帮助的组合。为了解决这个问题,这里的投票功率θ是移动平均的,以避免θ的突然变化,从而确保每个组合都有足够的梯度在早期训练阶段收敛。每次迭代结束时,我们用更新θ。注意,0 < α < 1,最初设置为1/M。
5 实验
5.1实验设置
数据集
我们分别从ACM[孔等人,2012],AMiner和DBLP[王等人,2019]中抽取了结构不同的图对。这些数据集的统计数据显示在表1中,因此显示了它们的结构差异。对于每一对图,元路径边的密度彼此之间有很大不同,这表明这些图对是域兼容的(即结构上不相似)。
基线
我们选择一些最先进的基线来验证MuSDAC处理HINs可转移分类的能力。对于同构网络上的基线,我们将所有元路径的邻接矩阵合并成一个邻接矩阵,从而得到一个统一的网络。
- GCN [Kipf和Welling,2016]:为同构网络设计的典型图形神经网络。
- GraphInception[张等,2018]:HINs集合分类的深层。
- HAN[王等,2019]:一种基于层次关注的异构图嵌入方法。
- DANE[张等,2019]:采用领域自适应学习不同同构网络上的可转移嵌入。
- MuSC:MuSDAC的一种变体,它消除了等式4中的MMD损耗
- SingleDAC:MuSDAC的变体,仅使用一种具有最佳分辨率的组合。
- MuSDAC-GAN:MuSDAC变体,采用GAN和平均投票,而不是MMD和加权投票。
超参数设置
我们使用GCN,图形选项,HAN和DANE的默认参数设置。在MuSDAC及其变体中,多通道GCN的第一和第二隐藏层的维数分别为64和32,然后在聚合通道中聚合为16。采样组合数| Z | = M = 2N-1。在数模转换器中,我们对MMD使用5个高斯核,γ = 10。在加权投票中,我们取η= 25,α = 0.95。
5.2分类结果
不同转移设置的分类结果如表2所示,在这里我们可以得出四个观察结果。
- 与忽略迁移学习的图形选项、HAN、MuSC相比,MuSDAC在ACM B→A和AMiner A→B方面取得了显著的改进,在这两个方面观察到图形对之间的元路径密度存在显著差异(如表1所示)。
- 与处理同构网络的DANE相比,可以观察到MuSDAC的显著改进,特别是在异构性最突出的DBLP(如密集元路径所示)。
- MuSDAC能够通过多通道组合恢复比SingleDAC更复杂的语义,因此性能更好。
- 由于MMD能够更精确地反映域距离,而GAN损失则不能,因此加权投票的使用更加方便。
5.3两级选择分析
在本节中,我们从以下角度分析两级选择策略。
- 选择:是随机选择M个组合(随机)还是使用启发式算法(启发式)。
- 投票:是使用平均投票(平均)、加权投票(加权)还是移动平均加权投票(移动)。
结果如表3所示,表明两级选择策略确实能够显著提高性能,尤其是当它们同时使用时。
5.4超参数灵敏度
我们在AMiner A→B上测试等式4中γ的灵敏度,并将结果绘制在图3(a)中。可以表明,只要使用正则化(γ > 0),就没有观察到性能的显著变化。
图3:γ的超参数灵敏度(左)和N = 3时的组合数(右)
我们还改变了ACM B→A上样本M = 1至6(N = 3)的组合数量,并将结果绘制在图3(b)中。我们的结论是,随着我们对语义的更多组合和层次进行采样,可以获得更好的性能。
5.5可视化
图4:MuSDAC生成的AMiner A→B的可视化。同一列中的两个图形指的是聚合通道中的源和目标嵌入分布,其最终投票权列在图形下方。
我们在图4中的A→B上可视化了5个聚合频道中的3个,以便直观地了解我们的投票方案。可以看出,前两个具有高投票权的信道表现良好,因为它们说明了类别之间的明确边界和相似的嵌入分布。相反,最后一个渠道由于界限模糊,很难有效投票。定性结果表明,MuSDAC能够为可转移分类任务选择指示性组合。
6结论
我们提出了多空间结构和两级选择的多属性决策支持系统,成功地解决了基于HINs的领域自适应分类问题。与各种基线相比,MuSDAC在预测精度和可视化方面表现出了良好的性能。