Introduction
本文的作者来自Beijing University of Posts and Telecommunications以及Institute for Infocomm Research, Singapore。
本文提出了一种新的基于异构图神经网络的半监督短文本分类方法,有标签的训练数据稀缺的问题提供了一种解决方案。提出了一个灵活的HIN(异构信息网络)框架来建模短文本,它可以集成任何类型的附加信息,并捕获它们之间的关系来处理语义稀疏性。然后,本文提出了基于node和type级注意的双重注意机制的异构图注意网络(HGAT)嵌入HIN进行短文本分类。主要贡献如下:
- 首次尝试使用HIN对短文本和附加信息建模,并对HIN上的图神经网络进行半监督分类。
- 基于一种新的双层注意机制,我们提出了一种新的异构图注意网络(HGAT)来嵌入HIN,该机制可以学习不同邻近节点的重要性以及不同节点(信息)类型对当前节点的重要性。
- 大量的实验结果表明,提出的HGAT模型在6个基准数据集上显著优于7种最先进的方法。
HIN for Short Texts
在文本上应用GCN的相关方法,第一步就是将文档转化为图结构。【1】在文本上使用了滑动窗口的形式,将单词建模成结点。本文则将一个短文本视为一个结点。由于短文本的特征稀疏性,因此借助LDA主题模型与WIkipedia对短文本特征进行扩充,将所有需要训练的文本建模成一个大的异构信息网。每个文档被分配K个topic,并建立文档–topic边;借助实体链接工具TAGME将句子中的实体链接到外部知识库。通过wiki语料训练word2vec,来计算实体之间的余弦相似度,并将相似度高于阈值δ的边保留。通过结合主题、实体和关系,丰富了短文本的语义,从而极大地有利于下面的分类任务。
Heterogeneous Graph Convolution
考虑到节点(信息)的异构类型,首先描述了HGAT中的异构图卷积。
形式上,考虑一个图G = (V, E),其中V和E分别表示节点集和边集,X是结点的特征矩阵。同Kipf的论文一样,构建带有结点自环的邻接矩阵A’=A+I;其中A是邻接矩阵,I是对角矩阵。然后使用degree矩阵M去normalized,得到A hat:。其中,,之后GCN的传播规则被定义为:
在HIN中,有三种类型的节点:文档、主题和具有不同特性空间的实体。doc的特征使用其TF-IDF向量来表示;topic的特征使用不同topic下主题词的分布来表示;entity通过其Word embedding和其Wikipedia描述文本的TF-IDF向量连接起来表示。
但是,异构信息网并不能直接应用GCN,因为不同结点的向量并不一致。一个简单暴力的想法就是,把通过将不同类型节点的特征空间拼接在一起,构成一个新的大的特征空间T={τ1,τ2,τ3},来使HIN适配不同类型的结点。当表示实体的时候,另外两个特征空间的向量为0。但是这样稀疏的表示使得性能下降。因此,提出了异构图卷积,它考虑了不同类型信息之间的差异,并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中,其形式化表示为:
其中,为A˜的子矩阵,行表示所有结点,列表示每个结点的类型为τ的邻居结点。可以看出这个操作就是将不同类型结点单独拿出来进行计算。
Dual-level Attention Mechanism
之后,为了探究不同类型的结点对最终分类产生的不同影响,针对不同的结点计算了不同的注意力(有关于图上的注意力,可以点击这里):
其中,hτ是当前结点v聚合了所有类型为τ的邻居而得到的向量,hv是结点本身的特征,||表示向量之间的拼接拼接,μτ是τ类型的注意向量。之后,进行softmax:
当不同类型的邻居的注意力分别被计算出来,就可以聚合node-level的注意力得分:
νT是可学习的注意力向量。之后采取同样的方式normalize:
最后,将包含类型级和节点级注意的双层注意机制合并到异构图卷积中,Bτ代表注意力矩阵:
多次卷积之后,最后一层采用softmax进行分类:
并采用带有L2正则化项的损失函数:
其中,C表示分类数;Dtrain表示训练集;Y表示实际的分类,Z表示预测的类别;Θ是模型参数,η是正则化因子。
Experiment
对于每个数据集,在每个类中随机选择40个带标签的文档,其中一半用于培训,另一半用于验证。文档预处理:删除非英语字符、停止词和出现次数少于5次的低频词。表1显示了数据集的统计信息:
模型与其他算法对比的准确率如下:
在最基础的对比之后,作者又进行了一些深入的比较:
(1)与HGAT的4个变体进行了比较:
- GCN-HIN。直接在异构信息网上使用GCN,不采用任何attention。
- HGAT w/o ATT。考虑了不同类型信息之间的差异,并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中,但是不使用node-level以及type-level的注意力。
- HGAT-Type。只考虑type-level的注意力。
- HGAT-Node。只考虑node-level的注意力。
最终,不同的变体的准确率如下:
(2)探究标签数据的数量对其的影响。可以看出HGAT可以胜任半监督的任务。
(3)topic的数量与top topic的选取。在K=15,P=2的时候效果最佳。
(4)案例研究
以AGNews的一篇短文为例(它被正确地分类为运动类)来说明HGAT的内在机制。type-level的注意力将高权重(0.7)分配给短文本本身,而将低权重(0.2和0.1)分配给实体和主题。这意味着文本本身比实体和主题更有助于分类。(蓝色部分)
而对于每个结点,e3,e4,e1比e2贡献更大,因为e2结点表示城市,其它三个表示球队。(红色)
【1】Learning Graph Pooling and Hybrid Convolutional Operations for Text Representations,WWW