EMNLP2019. HGAT-Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification


论文链接: Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification
作者:北邮胡琳梅等人

摘要

短文本分类在新闻和推特标签中找到了丰富而关键的应用,帮助用户找到相关信息。由于在许多实际用例中缺乏标注的训练数据,研究半监督短文本分类迫在眉睫。现有的研究大多集中在长文本上,而对短文本的研究由于数据的稀疏性和标注量的限制,效果并不理想。在本文中,我们提出了一种基于异构图神经网络的半监督短文本分类方法,通过沿图的信息传播充分利用了少量的标记数据和大量的未标记数据。特别地,我们首先提出了一个灵活的异构信息网络(HIN)框架来建模短文本,该框架可以整合任何类型的附加信息,并捕捉它们之间的关系来解决语义稀疏性。在此基础上,提出了基于节点级和类型级注意机制的异构图注意网络(HGAT),嵌入HIN用于短文本分类。注意力机制可以学习不同相邻节点的重要性,以及不同节点(信息)类型对当前节点的重要性。大量的实验结果表明,我们提出的模型在六个基准数据集上显著优于最先进的方法。

1 引言

随着网络社交媒体和电子商务的快速发展,网络新闻、查询、评论、推文等短文本在互联网上越来越普遍。短文本分类可以广泛应用于许多领域,从情感分析到新闻标签/分类和查询意图分类。在许多实际场景中,标记数据是稀缺的,而人类标记是耗时的,可能需要专家知识(Aggarwal和Zhai, 2012)。因此,在标注训练数据相对较少的情况下,研究半监督短文本分类就显得尤为迫切。
然而,由于以下挑战,半监督短文本分类并非微不足道。首先,短文本通常语义稀疏、模棱两可,缺乏上下文(Phan et al., 2008)。虽然提出了一些方法来纳入额外的资料,例如实体,他们不能考虑关系数据,比如实体之间的语义关系。其次,标记训练数据是有限的,这导致传统的和神经监督方法(Wang and Manning, 2012;金正日,2014;(张等,2015)无效。因此,如何充分利用有限的标注数据和大量的未标注数据成为短文本分类的关键问题(Aggarwal and Zhai, 2012)。最后,我们需要捕捉不同信息的重要性,这些信息被合并来解决在多个粒度级别上的稀疏性,并降低噪声信息的权重,以获得更准确的分类结果。


在这项工作中,我们提出了一种基于异构图神经网络的半监督短文本分类方法,该方法充分利用了有限的标记数据和大量的未标记数据,允许信息通过我们自动构建的图进行传播。特别是,我们首先提出了一个灵活的HIN框架来建模短文本,该框架能够整合任何附加信息(如实体和主题),并捕捉文本和附加信息之间的丰富关系
然后,我们提出了基于节点级和类型级注意的双重注意机制的异构图注意网络(HGAT),嵌入HIN用于短文本分类。我们的HGAT方法考虑了不同节点类型的异质性。此外,双层注意机制同时捕捉不同邻节点的重要性(降低了噪声信息的权重)和不同节点(信息)类型对当前节点的重要性。

本文贡献点:

  • 据我们所知,这是第一次尝试用HIN对短文本和附加信息建模,并在HIN上采用图神经网络进行半监督分类。
  • 我们提出了一种新的基于双层次注意机制的异构图注意网络(HGAT)来嵌入HIN,该机制可以学习不同相邻节点的重要性以及不同节点(信息)类型对当前节点的重要性。
  • 大量的实验结果表明,我们提出的HGAT模型在6个基准数据集上显著优于7种最先进的方法。

2 相关工作

2.1 传统文本分类

传统的文本分类方法,如SVM (Drucker et al., 1999)需要一个特征工程步骤来进行文本表示。最常用的特征是BoW和TF-IDF (Blei et al., 2003)。最近的一些研究(Rousseau et al., 2015;Wang et al., 2016)将文本建模为图形,提取基于路径的特征进行分类。尽管这些方法在正式文本和编辑良好的文本上都取得了初步的成功,但由于短文本所具有的特征不足,这些方法在短文本分类上都未能取得令人满意的效果。为了解决这一问题,人们努力丰富短文本的语义。例如Phan等人(2008)利用外部语料库提取短文本的潜在主题。Wang等(2013)从知识库等引入外部实体信息。然而,由于特征工程步骤依赖于领域知识,这些方法不能取得很好的性能。

2.2 用于文本分类的深度神经网络

深度神经网络以嵌入方式自动表示文本,在文本分类中得到了广泛的应用。两种具有代表性的深度神经模型,如RNNs (Liu et al., 2016;Sinha等人,2018)和cnn, (Kim, 2014;Shimura et al., 2018)在许多自然语言处理任务中显示了它们的力量,包括文本分类。为了使其适应于短文本分类,提出了几种方法。例如,Zhang et al.(2015)设计了一个字符级CNN,通过挖掘文本内部不同级别的信息来缓解稀疏性。Wang et al.(2017)融合了KBs中的实体和概念,丰富了短文本的语义。然而,这些方法不能捕获语义关系(如实体关系),并且严重依赖于训练数据的数量。显然,缺乏训练数据仍然是阻碍它们成功应用的关键瓶颈。

2.3 半监督文本分类

考虑到人类标记的成本和无标记文本也提供有价值的信息的事实,半监督方法已经被提出。可以分为两类:(1)潜在变量模型(Lu and Zhai, 2008;Chen et al.,2015);(2)基于嵌入的模型(孟等,2018)。前者主要通过用户提供的种子信息扩展主题模型,然后根据后验类别-主题分配来推断文档的标签。后者使用种子信息导出文档的嵌入和文本分类的标签名称。例如,PTE (Tang et al., 2015)用图形对文档、单词和标签建模,并学习文本(节点)嵌入来进行分类。孟等人(2018)利用种子信息生成预训练的伪标记文档。Yin等(2015)采用基于SVM的半监督学习方法,对未标注的文档进行迭代标注。最近,图卷积网络(GCN)在半监督分类方面受到了广泛关注(Kipf和Welling, 2017)。TextGCN (Yao et al., 2019)将整个文本语料库建模为文档-单词图,并应用GCN进行分类。然而,所有这些方法都侧重于长文本。此外,他们不能利用注意机制来捕捉重要信息。

3 我们提出的方法

本文提出了一种基于异构图神经网络的半监督短文本分类方法,该方法允许信息沿图传播,充分利用有限的标记数据和大量的未标记数据。我们的方法包括两个步骤。特别地,为了缓解短文本的稀疏性,我们首先提出了一个灵活的HIN框架来建模短文本,该框架既可以包含任何附加信息,也可以捕捉短文本和附加信息之间的丰富关系。在此基础上,我们提出了一种新的基于双层次注意机制的HGAT模型,将HIN嵌入到短文本分类中。HGAT考虑不同类型信息的异质性。此外,注意机制可以学习不同节点的重要性(降低噪声信息的权重)以及不同节点(信息)类型的重要性。

3.1 HIN

首先,我们提出了一种基于HIN的短文本建模框架,该框架能够整合任何附加信息,并捕捉文本与附加信息之间的丰富关系。通过这种方式,缓解了短文本的稀疏性。
以往的研究利用知识库中的潜在主题(Zeng et al., 2018)和外部知识(如实体)来丰富短文本的语义(Wang et al., 2013, 2017)。然而,他们没有考虑语义关系信息,如实体关系。我们的HIN框架适用于短文本,可以灵活地集成任何附加信息并对它们的丰富关系进行建模。
通过引入主题、实体和关系,我们丰富了短文本的语义,从而大大有利于后续的分类任务。

3.2 HGAT

然后我们提出了HGAT模型(如图2所示),基于新的节点级和类型级的双重注意机制,将HIN嵌入到短文本分类中。HGAT利用异构图卷积来考虑不同类型信息的异构性。另外,双重注意力机制获取不同相邻节点的重要性(降低噪声信息的权重)和不同节点(信息)类型对特定节点的重要性。最后,它通过softmax层预测文档的标签。

3.2.1 异构图卷积

众所周知,GCN (Kipf和Welling, 2017)是一种多层神经网络,直接在同构图上操作,并根据其邻域的属性归纳节点的嵌入向量。
为了解决这个问题,我们提出了异构图卷积,它考虑了不同类型信息的差异,并将它们与各自的变换矩阵投影到一个隐式公共空间中。

3.2.2 双层注意力机制

通常来说,给定一个特定的结点,不同类型的相邻结点可能会对其产生不同的影响。例如,相同类型的相邻节点可能携带更多有用的信息。另外,相同类型的不同相邻节点也可能有不同的重要性。为了同时捕捉节点级和类型级的不同重要性,我们设计了一种新的双层注意机制。

类型级注意力
节点级注意力

4 实验

在本节中,我们评估了不同的半监督短文本分类方法的经验性能。

4.1 实验设置

4.1.1 数据集

6个基准短文本数据集:AGNews, Snippets,Ohsumed, TagMyNews, MR and Twitter
在这里插入图片描述
对于每个数据集,我们每个类随机选择40个带标签的文档,其中一半用于训练,另一半用于验证。跟随Kipf和Welling(2017),剩下的所有文件都是用于测试的,在训练时也作为无标签文件使用。
我们对所有的数据集进行如下预处理。我们删除非英语字符、停止词和出现次数少于5次的低频词。表1显示了数据集的统计数据,包括文档的数量、平均标记和实体的数量、类的数量以及括号中包含实体的文本的比例。在我们的数据集中,大部分的文本(大约80%)包含实体。

4.1.2 baseline

为了综合评价我们提出的半监督短文本分类方法,我们将其与以下9种最先进的方法进行比较:
SVM: SVM+TFIDF , SVM+LDA
CNN: CNN-rand , CNN-pretrain
LSTM: LSTM-rand , LSTM-pretrain
PTE
TextGCN
HAN

4.1.3 参数设置

4.2 实验结果

表2显示了不同方法在6个基准数据集上的分类精度。我们可以看到,我们的方法明显优于所有的基线,这表明我们提出的方法在半监督短文本分类的有效性。
在这里插入图片描述
我们的HGAT模型的性能一直明显优于所有最先进的模型,这表明了我们所提出的方法的有效性。这主要表现在:(1)我们构建了一个灵活的HIN框架来对短文本进行建模,能够整合额外的信息来丰富语义;(2)我们提出了一种新的HGAT模型,基于新的双层注意机制嵌入HIN来对短文本进行分类。注意机制不仅可以捕获不同邻节点的重要性(降低噪声信息的权重),还可以捕获不同类型节点的重要性。

4.2.1 HAGT变体的比较

我们还将我们的HGA模型与一些变体进行了比较,以验证我们的模型的有效性。
在这里插入图片描述

4.2.2 带标签文档数量的影响

在这里插入图片描述

4.2.3 参数分析

在这里插入图片描述

4.2.4 案例研究

在这里插入图片描述

5 结论

本文提出了一种基于异构图神经网络的半监督短文本分类方法,该方法通过信息传播充分利用了有限标记数据和大量未标记数据。特别的是,我们首先提出了一个灵活的HIN框架来建模短文本,该框架可以整合任何额外的信息并捕捉它们的丰富关系来解决短文本的语义稀疏性。在此基础上,提出了一种基于节点级和类型级注意机制的HGAT模型。HGAT通过将不同的信息类型投射到一个隐式的公共空间来考虑它们的异构性。此外,双层注意力在多个粒度级别捕获关键信息,降低了噪声信息的权重。大量的实验结果表明,我们提出的模型在六个基准数据集上一致显著优于最先进的方法。
由于我们的HGAT模型是一种通用的HIN嵌入方法,将其应用于其他任务将是很有趣的,例如基于HIN的推荐。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值