HGAT-用于半监督短文本分类的异构图注意力网络

本文提出了一种名为HGAT的异构图注意力网络,用于半监督短文本分类。该模型利用HIN框架集成附加信息,通过双层注意力机制捕获节点重要性和类型差异,有效处理短文本的稀疏性。实验结果显示,HGAT在6个基准数据集上优于现有方法。
摘要由CSDN通过智能技术生成

在这里插入图片描述
来源:EMNLP 2019
论文链接
代码及数据集链接

摘要

短文本分类在新闻和推特中找到了丰富和有用的标记,以帮助用户找到相关信息。由于在许多实际应用案例中缺乏有标记的训练数据,因此迫切需要研究半监督短文本分类。现有的研究主要集中在长文本上,并且由于稀疏性和有限的标记数据,而现有的研究应用在短文本上表现令人不满意。本文提出了一种新的基于异构图神经网络的半监督短文本分类方法,该方法充分利用了标记数据少、未标记数据大的特点,通过信息沿图传播实现半监督短文本分类。特别是,我们提出了一种灵活的HIN(异构信息网络)框架来对短文本建模,它可以集成任何类型的附加信息,以及捕捉它们的关系,以解决语义稀疏性。在此基础上,提出一种基于两级注意力机制的异构图注意力网络(HGAT),嵌入HIN 进行文本分类,其中两级注意力包括节点级和类型级注意力机制。注意力机制可以学习不同相邻节点的重要性以及不同节点(信息)类型对当前节点的重要性。大量的实验结果表明,我们提出的模型在六个基准数据集上都显著优于最新的方法。

1、背景

本文提出了一种新的基于异构图神经网络的半监督短文本分类方法,该方法充分利用有限标记数据和大量未标记数据,允许信息通过构建的图传播。特别,我们首先提出了一个灵活的 HIN 框架 ,用于短文本建模,它能够包含任何附加的信息(例如实体和主题),以及捕捉文本和附加信息之间的丰富关系。然后,我们提出一种基于两级注意力机制的异构图注意力网络(HGAT),嵌入HIN 进行文本分类,其中两级注意力包括节点级和类型级注意力机制。我们的 HGAT 方法考虑了不同节点类型的异构性。此外,双层注意机制捕获不同相邻节点的重要性(降低噪声信息的权重)和不同节点(信息)类型对当前节点的重要性。本文的主要贡献概括如下:

  1. 据我们所知,这是第一次尝试使用 HIN 对短文本和附加信息进行建模,并将 HIN 上的图神经网络用于半监督分类。
  2. 提出了一种新的基于双层注意机制的异构图注意网络(HGAT),该机制可以学习不同相邻节点的重要性以及不同节点(信息)类型对当前节点的重要性。
  3. 大量的实验结果表明,我们提出的HGAT模型在6个基准数据集上显著优于7种最新方法。

2、模型

2.1、短文本异构信息网络HIN

我们首先提出了一个用于短文本建模的HIN框架,它能够集成任何附加信息,并捕获文本和附加信息之间的丰富关系。这样就减少了短文本的稀疏性。

以往的研究从知识库中挖掘潜在主题和外部知识,以丰富短文本的语义。然而它们没有考虑语义关系信息,如实体关系。短文本的 HIN 框架是灵活的,它整合任何额外的信息和建模它们丰富的关系。这里,我们考虑两种类型的附加信息,即主题和实体。如图1所示,我们构造图 G = ( V , E ) G=(V,E) G=(V,E) , 它包括短文本集 D = { d 1 , ⋯   , d m } D=\{d_1,\cdots,d_m\} D={ d1,,dm} 、主题集 T = { t 1 , ⋯   , t K } T=\{t_1,\cdots,t_K\} T={ t1,,tK}和实体集 E = { e 1 , ⋯   , e n } E=\{e_1,\cdots,e_n\} E={ e1,,en}做为节点,即 V = D ∪ T ∪ E V=D\cup T\cup E V=DTE。边集 E E E表示它们之间的关系。网络构建的细节描述如下。

首先,我们利用 LDA 挖掘潜在主题T来丰富短文本的语义。每个主题 t i = ( θ 1 , ⋯   , θ w ) t_i=(\theta_1,\cdots,\theta_w) ti=(θ1,,θw) w w w表示词汇量)是由单词的概率分布表示。我们把每个文档分配给前前P 个概率最高的主题。因此,如果将文档分配给主题,则会在文档和主题之间建立边。其次,我们识别文档 D 中的实体 E ,并使用实体链接工具 TAGME 将它们映射到 Wikipedia。如果文档包含实体,则在文档和实体之间建立边。我们将一个实体作为一个整体词,使用基于Wikipedia语料库的word2vec 学习实体嵌入。为了进一步丰富短文本的语义,促进信息传播,我们考虑了实体之间的关系。特别是,如果基于嵌入计算的两个实体之间的相似性得分(余弦相似性)高于预定义的阈值δ,则在它们之间建立一条边。通过结合主题、实体和关系,我们丰富了短文本的语义,从而大大有利于后续的分类任务。例如,如图1所示,短文本“the seed of Apple’s Innovation: In an era when most technology…”,被实体“Apple Inc”和“company”,以及主题“technology”,丰富了语义信息。因此,可以很有把握地把该短文本将其正确地归类为“business”类别。
在这里插入图片描述

2.2、HGAT模型

然后,我们提出了一种新的双层次注意机制(包括节点级和类型级)的 HGAT 模型(如图2所示),嵌入 HIN 来进行短文本分类。HGAT 利用异构图卷积来考虑不同类型信息的异构性。此外,双层注意机制捕获不同相邻节点的重要性(降低噪声信息的权重)和不同节点(信息)类型对特定节点的重要性。最后,它通过 softmax 层预测文档的标签。
在这里插入图片描述

2.2.1、异构图卷积

首先考虑节点(信息)的异构类型,描述 HGAT 中的异构图卷积。众所周知,GCN((Kipf and Welling, 2017) 是一个多层神经网络,它直接在同构图上操作,并根据节点邻域的性质归纳出节点的嵌入向量。具体来说就是,对于图 G = ( V , E ) G=(V,E) G=(V,E), V V V E E E是节点集和边集。 X ∈ R ∣ V ∣ × q X\in R^{|V|\times q} XRV×q是包含所有节点特征向量的矩阵。邻接矩阵 A ′ = A + I A'=A+I A=A+I包含自连接。度矩阵为 对角矩阵 M M M,其中 M i , i = ∑ j A i , j ′ M_{i,i}=\sum_j A'_{i,j} Mi,i=jAi,j。层之间传播规则如下:
H ( l + 1 ) = σ ( A ~ ⋅ H ( l ) ⋅ W ( l ) ) H^{(l+1)}=\sigma(\tilde{A}\cdot H^{(l)}\cdot W^{(l)}) H(l+1)=σ(A~H

  • 6
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值