当GCN遇见NLP(二) Heterogeneous GAN for Semi-supervised Short Text Classification,EMNLP2019

Introduction

本文的作者来自Beijing University of Posts and Telecommunications以及Institute for Infocomm Research, Singapore。
本文提出了一种新的基于异构图神经网络的半监督短文本分类方法,有标签的训练数据稀缺的问题提供了一种解决方案。提出了一个灵活的HIN(异构信息网络)框架来建模短文本,它可以集成任何类型的附加信息,并捕获它们之间的关系来处理语义稀疏性。然后,本文提出了基于node和type级注意的双重注意机制的异构图注意网络(HGAT)嵌入HIN进行短文本分类。主要贡献如下:

  • 首次尝试使用HIN对短文本和附加信息建模,并对HIN上的图神经网络进行半监督分类。
  • 基于一种新的双层注意机制,我们提出了一种新的异构图注意网络(HGAT)来嵌入HIN,该机制可以学习不同邻近节点的重要性以及不同节点(信息)类型对当前节点的重要性。
  • 大量的实验结果表明,提出的HGAT模型在6个基准数据集上显著优于7种最先进的方法。

HIN for Short Texts

在文本上应用GCN的相关方法,第一步就是将文档转化为图结构。【1】在文本上使用了滑动窗口的形式,将单词建模成结点。本文则将一个短文本视为一个结点。由于短文本的特征稀疏性,因此借助LDA主题模型与WIkipedia对短文本特征进行扩充,将所有需要训练的文本建模成一个大的异构信息网。每个文档被分配K个topic,并建立文档–topic边;借助实体链接工具TAGME将句子中的实体链接到外部知识库。通过wiki语料训练word2vec,来计算实体之间的余弦相似度,并将相似度高于阈值δ的边保留。通过结合主题、实体和关系,丰富了短文本的语义,从而极大地有利于下面的分类任务。
在这里插入图片描述

Heterogeneous Graph Convolution

在这里插入图片描述
考虑到节点(信息)的异构类型,首先描述了HGAT中的异构图卷积。
形式上,考虑一个图G = (V, E),其中V和E分别表示节点集和边集,X是结点的特征矩阵。同Kipf的论文一样,构建带有结点自环的邻接矩阵A’=A+I;其中A是邻接矩阵,I是对角矩阵。然后使用degree矩阵M去normalized,得到A hat:在这里插入图片描述。其中,在这里插入图片描述,之后GCN的传播规则被定义为:
在这里插入图片描述
在HIN中,有三种类型的节点:文档、主题和具有不同特性空间的实体。doc的特征使用其TF-IDF向量来表示;topic的特征使用不同topic下主题词的分布来表示;entity通过其Word embedding和其Wikipedia描述文本的TF-IDF向量连接起来表示。
但是,异构信息网并不能直接应用GCN,因为不同结点的向量并不一致。一个简单暴力的想法就是,把通过将不同类型节点的特征空间拼接在一起,构成一个新的大的特征空间T={τ1,τ2,τ3},来使HIN适配不同类型的结点。当表示实体的时候,另外两个特征空间的向量为0。但是这样稀疏的表示使得性能下降。因此,提出了异构图卷积,它考虑了不同类型信息之间的差异,并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中,其形式化表示为:
在这里插入图片描述其中,在这里插入图片描述为A˜的子矩阵,行表示所有结点,列表示每个结点的类型为τ的邻居结点。可以看出这个操作就是将不同类型结点单独拿出来进行计算。

Dual-level Attention Mechanism

之后,为了探究不同类型的结点对最终分类产生的不同影响,针对不同的结点计算了不同的注意力(有关于图上的注意力,可以点击这里):
在这里插入图片描述
在这里插入图片描述
其中,hτ是当前结点v聚合了所有类型为τ的邻居而得到的向量,hv是结点本身的特征,||表示向量之间的拼接拼接,μτ是τ类型的注意向量。之后,进行softmax:

在这里插入图片描述
当不同类型的邻居的注意力分别被计算出来,就可以聚合node-level的注意力得分:
在这里插入图片描述
νT是可学习的注意力向量。之后采取同样的方式normalize:
在这里插入图片描述
最后,将包含类型级和节点级注意的双层注意机制合并到异构图卷积中,Bτ代表注意力矩阵:
在这里插入图片描述
多次卷积之后,最后一层采用softmax进行分类:
在这里插入图片描述
并采用带有L2正则化项的损失函数:
在这里插入图片描述
其中,C表示分类数;Dtrain表示训练集;Y表示实际的分类,Z表示预测的类别;Θ是模型参数,η是正则化因子。

Experiment

对于每个数据集,在每个类中随机选择40个带标签的文档,其中一半用于培训,另一半用于验证。文档预处理:删除非英语字符、停止词和出现次数少于5次的低频词。表1显示了数据集的统计信息:
在这里插入图片描述
模型与其他算法对比的准确率如下:
在这里插入图片描述
在最基础的对比之后,作者又进行了一些深入的比较:
(1)与HGAT的4个变体进行了比较:

  1. GCN-HIN。直接在异构信息网上使用GCN,不采用任何attention。
  2. HGAT w/o ATT。考虑了不同类型信息之间的差异,并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中,但是不使用node-level以及type-level的注意力。
  3. HGAT-Type。只考虑type-level的注意力。
  4. HGAT-Node。只考虑node-level的注意力。
    最终,不同的变体的准确率如下:

在这里插入图片描述
(2)探究标签数据的数量对其的影响。可以看出HGAT可以胜任半监督的任务。
在这里插入图片描述
(3)topic的数量与top topic的选取。在K=15,P=2的时候效果最佳。
在这里插入图片描述
(4)案例研究
以AGNews的一篇短文为例(它被正确地分类为运动类)来说明HGAT的内在机制。type-level的注意力将高权重(0.7)分配给短文本本身,而将低权重(0.2和0.1)分配给实体和主题。这意味着文本本身比实体和主题更有助于分类。(蓝色部分)
而对于每个结点,e3,e4,e1比e2贡献更大,因为e2结点表示城市,其它三个表示球队。(红色)

在这里插入图片描述

【1】Learning Graph Pooling and Hybrid Convolutional Operations for Text Representations,WWW

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值