当GCN遇见NLP(二) Heterogeneous GAN for Semi-supervised Short Text Classification,EMNLP2019

Introduction

本文的作者来自Beijing University of Posts and Telecommunications以及Institute for Infocomm Research, Singapore。
本文提出了一种新的基于异构图神经网络的半监督短文本分类方法,有标签的训练数据稀缺的问题提供了一种解决方案。提出了一个灵活的HIN(异构信息网络)框架来建模短文本,它可以集成任何类型的附加信息,并捕获它们之间的关系来处理语义稀疏性。然后,本文提出了基于node和type级注意的双重注意机制的异构图注意网络(HGAT)嵌入HIN进行短文本分类。主要贡献如下:

  • 首次尝试使用HIN对短文本和附加信息建模,并对HIN上的图神经网络进行半监督分类。
  • 基于一种新的双层注意机制,我们提出了一种新的异构图注意网络(HGAT)来嵌入HIN,该机制可以学习不同邻近节点的重要性以及不同节点(信息)类型对当前节点的重要性。
  • 大量的实验结果表明,提出的HGAT模型在6个基准数据集上显著优于7种最先进的方法。

HIN for Short Texts

在文本上应用GCN的相关方法,第一步就是将文档转化为图结构。【1】在文本上使用了滑动窗口的形式,将单词建模成结点。本文则将一个短文本视为一个结点。由于短文本的特征稀疏性,因此借助LDA主题模型与WIkipedia对短文本特征进行扩充,将所有需要训练的文本建模成一个大的异构信息网。每个文档被分配K个topic,并建立文档–topic边;借助实体链接工具TAGME将句子中的实体链接到外部知识库。通过wiki语料训练word2vec,来计算实体之间的余弦相似度,并将相似度高于阈值δ的边保留。通过结合主题、实体和关系,丰富了短文本的语义,从而极大地有利于下面的分类任务。
在这里插入图片描述

Heterogeneous Graph Convolution

在这里插入图片描述
考虑到节点(信息)的异构类型,首先描述了HGAT中的异构图卷积。
形式上,考虑一个图G = (V, E),其中V和E分别表示节点集和边集,X是结点的特征矩阵。同Kipf的论文一样,构建带有结点自环的邻接矩阵A’=A+I;其中A是邻接矩阵,I是对角矩阵。然后使用degree矩阵M去normalized,得到A hat:在这里插入图片描述。其中,在这里插入图片描述,之后GCN的传播规则被定义为:
在这里插入图片描述
在HIN中,有三种类型的节点:文档、主题和具有不同特性空间的实体。doc的特征使用其TF-IDF向量来表示;topic的特征使用不同topic下主题词的分布来表示;entity通过其Word embedding和其Wikipedia描述文本的TF-IDF向量连接起来表示。
但是,异构信息网并不能直接应用GCN,因为不同结点的向量并不一致。一个简单暴力的想法就是,把通过将不同类型节点的特征空间拼接在一起,构成一个新的大的特征空间T={τ1,τ2,τ3},来使HIN适配不同类型的结点。当表示实体的时候,另外两个特征空间的向量为0。但是这样稀疏的表示使得性能下降。因此,提出了异构图卷积,它考虑了不同类型信息之间的差异,并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中,其形式化表示为:
在这里插入图片描述其中,在这里插入图片描述为A˜的子矩阵,行表示所有结点,列表示每个结点的类型为τ的邻居结点。可以看出这个操作就是将不同类型结点单独拿出来进行计算。

Dual-level Attention Mechanism

之后,为了探究不同类型的结点对最终分类产生的不同影响,针对不同的结点计算了不同的注意力(有关于图上的注意力,可以点击这里):
在这里插入图片描述
在这里插入图片描述
其中,hτ是当前结点v聚合了所有类型为τ的邻居而得到的向量,hv是结点本身的特征,||表示向量之间的拼接拼接,μτ是τ类型的注意向量。之后,进行softmax:

在这里插入图片描述
当不同类型的邻居的注意力分别被计算出来,就可以聚合node-level的注意力得分:
在这里插入图片描述
νT是可学习的注意力向量。之后采取同样的方式normalize:
在这里插入图片描述
最后,将包含类型级和节点级注意的双层注意机制合并到异构图卷积中,Bτ代表注意力矩阵:
在这里插入图片描述
多次卷积之后,最后一层采用softmax进行分类:
在这里插入图片描述
并采用带有L2正则化项的损失函数:
在这里插入图片描述
其中,C表示分类数;Dtrain表示训练集;Y表示实际的分类,Z表示预测的类别;Θ是模型参数,η是正则化因子。

Experiment

对于每个数据集,在每个类中随机选择40个带标签的文档,其中一半用于培训,另一半用于验证。文档预处理:删除非英语字符、停止词和出现次数少于5次的低频词。表1显示了数据集的统计信息:
在这里插入图片描述
模型与其他算法对比的准确率如下:
在这里插入图片描述
在最基础的对比之后,作者又进行了一些深入的比较:
(1)与HGAT的4个变体进行了比较:

  1. GCN-HIN。直接在异构信息网上使用GCN,不采用任何attention。
  2. HGAT w/o ATT。考虑了不同类型信息之间的差异,并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中,但是不使用node-level以及type-level的注意力。
  3. HGAT-Type。只考虑type-level的注意力。
  4. HGAT-Node。只考虑node-level的注意力。
    最终,不同的变体的准确率如下:

在这里插入图片描述
(2)探究标签数据的数量对其的影响。可以看出HGAT可以胜任半监督的任务。
在这里插入图片描述
(3)topic的数量与top topic的选取。在K=15,P=2的时候效果最佳。
在这里插入图片描述
(4)案例研究
以AGNews的一篇短文为例(它被正确地分类为运动类)来说明HGAT的内在机制。type-level的注意力将高权重(0.7)分配给短文本本身,而将低权重(0.2和0.1)分配给实体和主题。这意味着文本本身比实体和主题更有助于分类。(蓝色部分)
而对于每个结点,e3,e4,e1比e2贡献更大,因为e2结点表示城市,其它三个表示球队。(红色)

在这里插入图片描述

【1】Learning Graph Pooling and Hybrid Convolutional Operations for Text Representations,WWW

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。 README: AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news sources by ComeToMyHead in more than 1 year of activity. ComeToMyHead is an academic news search engine which has been running since July, 2004. The dataset is provided by the academic comunity for research purposes in data mining (clustering, classification, etc), information retrieval (ranking, search, etc), xml, data compression, data streaming, and any other non-commercial activity. For more information, please refer to the link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html . The AG's news topic classification dataset is constructed by Xiang Zhang (xiang.zhang@nyu.edu) from the dataset above. It is used as a text classification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015). DESCRIPTION The AG's news topic classification dataset is constructed by choosing 4 largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and testing 7,600. The file classes.txt contains a list of classes corresponding to each label. The files train.csv and test.csv contain all the training samples as comma-sparated values. There are 3 columns in them, corresponding to class index (1 to 4), title and description. The title and description are escaped using double quotes ("), and any internal double quote is escaped by 2 double quotes (""). New lines are escaped by a backslash followed with an "n" character, that is "\n".

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值