当GCN遇见NLP(二) Heterogeneous GAN for Semi-supervised Short Text Classification，EMNLP2019

最新推荐文章于 2024-04-28 08:21:32 发布

五月的echo

最新推荐文章于 2024-04-28 08:21:32 发布

阅读量1.5k

点赞数 1

分类专栏： GNN NLP 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_36618444/article/details/104891804

版权

GNN NLP 专栏收录该内容

18 篇文章 48 订阅

订阅专栏

Introduction

本文的作者来自Beijing University of Posts and Telecommunications以及Institute for Infocomm Research, Singapore。
本文提出了一种新的基于异构图神经网络的半监督短文本分类方法，有标签的训练数据稀缺的问题提供了一种解决方案。提出了一个灵活的HIN(异构信息网络)框架来建模短文本，它可以集成任何类型的附加信息，并捕获它们之间的关系来处理语义稀疏性。然后，本文提出了基于node和type级注意的双重注意机制的异构图注意网络(HGAT)嵌入HIN进行短文本分类。主要贡献如下：

首次尝试使用HIN对短文本和附加信息建模，并对HIN上的图神经网络进行半监督分类。
基于一种新的双层注意机制，我们提出了一种新的异构图注意网络(HGAT)来嵌入HIN，该机制可以学习不同邻近节点的重要性以及不同节点(信息)类型对当前节点的重要性。
大量的实验结果表明，提出的HGAT模型在6个基准数据集上显著优于7种最先进的方法。

HIN for Short Texts

在文本上应用GCN的相关方法，第一步就是将文档转化为图结构。【1】在文本上使用了滑动窗口的形式，将单词建模成结点。本文则将一个短文本视为一个结点。由于短文本的特征稀疏性，因此借助LDA主题模型与WIkipedia对短文本特征进行扩充，将所有需要训练的文本建模成一个大的异构信息网。每个文档被分配K个topic，并建立文档–topic边；借助实体链接工具TAGME将句子中的实体链接到外部知识库。通过wiki语料训练word2vec，来计算实体之间的余弦相似度，并将相似度高于阈值δ的边保留。通过结合主题、实体和关系，丰富了短文本的语义，从而极大地有利于下面的分类任务。
在这里插入图片描述

Heterogeneous Graph Convolution

在这里插入图片描述
考虑到节点(信息)的异构类型，首先描述了HGAT中的异构图卷积。
形式上，考虑一个图G = (V, E)，其中V和E分别表示节点集和边集，X是结点的特征矩阵。同Kipf的论文一样，构建带有结点自环的邻接矩阵A’=A+I；其中A是邻接矩阵，I是对角矩阵。然后使用degree矩阵M去normalized，得到A hat：在这里插入图片描述。其中，,之后GCN的传播规则被定义为：

在HIN中，有三种类型的节点:文档、主题和具有不同特性空间的实体。doc的特征使用其TF-IDF向量来表示；topic的特征使用不同topic下主题词的分布来表示；entity通过其Word embedding和其Wikipedia描述文本的TF-IDF向量连接起来表示。
但是，异构信息网并不能直接应用GCN，因为不同结点的向量并不一致。一个简单暴力的想法就是，把通过将不同类型节点的特征空间拼接在一起，构成一个新的大的特征空间T={τ1，τ2，τ3}，来使HIN适配不同类型的结点。当表示实体的时候，另外两个特征空间的向量为0。但是这样稀疏的表示使得性能下降。因此，提出了异构图卷积，它考虑了不同类型信息之间的差异，并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中，其形式化表示为：
在这里插入图片描述其中，为A˜的子矩阵，行表示所有结点，列表示每个结点的类型为τ的邻居结点。可以看出这个操作就是将不同类型结点单独拿出来进行计算。

Dual-level Attention Mechanism

之后，为了探究不同类型的结点对最终分类产生的不同影响，针对不同的结点计算了不同的注意力（有关于图上的注意力，可以点击这里）：
在这里插入图片描述

其中，hτ是当前结点v聚合了所有类型为τ的邻居而得到的向量，hv是结点本身的特征，||表示向量之间的拼接拼接，μτ是τ类型的注意向量。之后，进行softmax：

在这里插入图片描述
当不同类型的邻居的注意力分别被计算出来，就可以聚合node-level的注意力得分：

νT是可学习的注意力向量。之后采取同样的方式normalize：

最后，将包含类型级和节点级注意的双层注意机制合并到异构图卷积中，Bτ代表注意力矩阵：
在这里插入图片描述
多次卷积之后，最后一层采用softmax进行分类：

并采用带有L2正则化项的损失函数：

其中，C表示分类数；Dtrain表示训练集；Y表示实际的分类，Z表示预测的类别；Θ是模型参数，η是正则化因子。

Experiment

对于每个数据集，在每个类中随机选择40个带标签的文档，其中一半用于培训，另一半用于验证。文档预处理：删除非英语字符、停止词和出现次数少于5次的低频词。表1显示了数据集的统计信息：
在这里插入图片描述
模型与其他算法对比的准确率如下：

在最基础的对比之后，作者又进行了一些深入的比较：
（1）与HGAT的4个变体进行了比较：

GCN-HIN。直接在异构信息网上使用GCN，不采用任何attention。
HGAT w/o ATT。考虑了不同类型信息之间的差异，并利用它们各自的变换矩阵将它们投射到一个隐含的公共空间中，但是不使用node-level以及type-level的注意力。
HGAT-Type。只考虑type-level的注意力。
HGAT-Node。只考虑node-level的注意力。
最终，不同的变体的准确率如下：

在这里插入图片描述
（2）探究标签数据的数量对其的影响。可以看出HGAT可以胜任半监督的任务。

（3）topic的数量与top topic的选取。在K=15，P=2的时候效果最佳。

（4）案例研究
以AGNews的一篇短文为例(它被正确地分类为运动类)来说明HGAT的内在机制。type-level的注意力将高权重(0.7)分配给短文本本身，而将低权重(0.2和0.1)分配给实体和主题。这意味着文本本身比实体和主题更有助于分类。（蓝色部分）
而对于每个结点，e3,e4,e1比e2贡献更大，因为e2结点表示城市，其它三个表示球队。（红色）

在这里插入图片描述

【1】Learning Graph Pooling and Hybrid Convolutional Operations for Text Representations，WWW

五月的echo

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
2
评论
当GCN遇见NLP(二) Heterogeneous GAN for Semi-supervised Short Text Classification，EMNLP2019

Introduction本文的作者来自Beijing University of Posts and Telecommunications以及Institute for Infocomm Research, Singapore。本文提出了一种新的基于异构图神经网络的半监督短文本分类方法，有标签的训练数据稀缺的问题提供了一种解决方案。提出了一个灵活的HIN(异构信息网络)框架来建模短文本，它可以...
复制链接

扫一扫