摘要
本论文介绍了GCN(图卷积网络)在文本分类上的应用。具体的方法是基于词的共现和文档词的关系,建立语料库的文本图,学习语料库的文本图卷积网络(text GCN)。
在多个基准数据集上的实验结果表明,没有任何外部词嵌入和知识输出的普通文本GCN可以形成最先进的文本分类方法。同时,文本GCN也学习了预测性单词和文档嵌入。此外,文本GCN相对于最先进的比较方法的改进更加突出,说明文本GCN对较少训练数据的文本分类具有健壮性。
介绍
文本分类的一个重要中间步骤是文本表示。传统的文本表示方法是用手工制作的特性来表示文本,比如稀疏的词汇特性(例如单词包和n-gram)。最近,深度学习模型也被广泛用于学习文本表示,例如卷积神经网络(CNN)、递归神经网络(RNN)和长短时记忆(LSTM)。
由于CNN和RNN优先考虑局部性和序列性,这些深度学习模型可以在局部连续词序列中很好地捕获语义和句法信息,但可能会忽略具有非连续和长距离语义的语料库中的全局此共现。
作者提出了一种新的的基于图神经网络的文本分类方法:从整个语料库中构造一个大型图,其中包含作为节点的单词和文档,使用GCN对图进行建模。两个词节点之间的边界由词的共现信息构成,一个词节点和文档节点之间的边界由词频和文档频率构成,从而将文本分类转化为节点分类问题。
该方法首次将整个语料库建构为异构图,并结合图神经网络学习单词和文档嵌入。
相关工作
作者首先将自己的方法和传统的文本分类方法(如单词包功能,n-gram)做对比,与这些方法不同的是,作者的方法可以自动学习作为节点嵌入的文本表示。
作者接下来对比了文本分类的深度学习(分两类,一类研究侧重于基于词嵌入的模型,另一类研究使用了深度神经网络)。这类方法虽然有效且应用广泛,但主要集中在局部连续词序列上,而没有明确使用语料库中的全局词共现信息。
再然后,作者与已知的一些GCN方法作了比较,他们要么将文档或句子视为单词节点图,要么依赖非常规性的文献引用关系构件图。而作者的方法在构建语料库图时,将文档和单词都视为节点(因此是异构图),不需要文档间的关系。
方法
- 图卷积网络(GCN)
GCN是一种多层神经网络,它直接在图上运行,根据节点的领域属性来归纳节点的嵌入向量。
考虑一个图G=(V,E),其中V(|V|=n)和E分别是节点集和边集。假设每个节点与自身都相连,即(v,v)∈E。使得X∈R^(nm)一个包含所有n个节点(包括他们的特征)的矩阵,其中m是特征向量的维度,每一行xv∈R ^m是v的特征向量。我们引入一个关于G的邻接矩阵A和它的次数矩阵 D,Dii=∑ j Aij。由于自循环,A的对角元素被设为1。
GCN只能捕获与一层卷积有关的近邻信息,当多个GCN层被堆叠时,关于更大的邻居的信息会被整合,对于单词GCN,新K维节点特征矩阵L(1)∈R^(nk)计算为
其中 - ρ:激活函数
- A~:规范化对称邻接矩阵
- W∈Ris:权重矩阵
- X:包含n个节点所有特性的矩阵
而高层GCN的计算公式如下:
其中j为层数,L(X)=X。
-
文本图卷积网络
作者构建了一个包含单词节点和文档节点的大型异构文本图,这样可以显式地建模全局单词同现,并且可以很容易地调整图卷积。
-
节点数=文档数+单词数
-
以“0”开头的为文档节点,其他为字节点
-
黑色粗体是文档——字边
-
灰色西边是字——字边
作者简单地将特征矩阵X=I设置为一个单位矩阵,这意味着每个单词或文档都表示为一个热向量作为文本GCN的输入。作者根据文档中词的出现(文档-字边)和字在整个语料库中的同现(字——字边)来建立边。一个文档节点和一个词节点之间的边的权值是该词在文档中的频率逆向(TF-IDF),逆文档频率是包含该单词的文档数量的对数比例的逆分数。
作者发现使用TF-IDF权值比仅使用词频更好。为了利用全局词共现信息,作者对语料库中的所有文档使用固定大小的滑动窗口来收集共现统计信息。同时,作者使用逐点相互信息来计算两个字节点之间的边的权重。在作者的初步实验中,他们发现使用PMI比使用词共现计数的结果更好。
节点 i 和节点 j 之间的边的权值为:
其中PMI( i,j )的计算公式如下:
- #W(i):包含word i 的语料库中滑动窗口的数量
- #W(i ,j):包含word i 和 word j 的滑动窗口的数量
- #W:语料库中滑动窗口的总数
- PMI值为正:语料库中词语的语义关联度高
- PMI值为负:意味着语料库中词语的语义关联度低或为零
因此,我们只在PMI值为正的字之间添加边。
这里插入一下关于TF-IDF的补充信息。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
其中,
- 词频(term frequency,TF)是指摸一个给定的词语在该文档中出现的频率,计算公式如下:
-
逆文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语的文档数目,再将得到的商取义10为底的对数得到:
|D|:语料库中的文档中枢
|{ j :t i∈dj}|:包含词语的文件数目,如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用1+ |{ j :t i∈dj}|作为分母。 -
TF与IDF的乘积:某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。
在构建文本图之后,作者将图输入到一个简单的双层GCN中,第二层节点的嵌入与标签的大小相同。同时,作者提出了网络的模型结构。
第一层:
- A~与上述的A ~一致。
- 采用ReLU作为激活函数
- 节点特征矩阵X作为激活矩阵
第二层:
- 激活函数为softmax
- 采用交叉熵损失函数评判loss值:
一个两层的GCN可以允许消息在最多两步的节点之间传递,因此,尽管图中没有直接的文档-文档边,但两层的GCN允许文档之间进行信息交换。
实验
-
实验目的:模型是否能在文本分类中取得令人满意的结果阳离子,即使只有有限的标记数据;模型可以学习预测词和记录em-beddings吗?
-
对比模型:TF-IDF+LR,CNN,LSTM,Bi-LSTM,PV-DBOW,PV-DM,PTE,fastText,SWEM,LEAM,graph-CNN,Graph-CNN-S,Graph-CNN-F
-
数据集:20NG数据集(bydate版本),来自MEDLINE数据库的Ohsumed corpusis,R52和R83(通用版本) ,MR
-
设置
第一个卷积图的嵌入大小为200,窗口大小为20,学习率为0.02,dropout率为0.5,减重为零,随机选择训练集的10%作为验证集。
同时,作者使用Adam对文本GCN进行最多200个epoch的训练,如果验证损失连续10个epoch没有减少,则停止训练。
对于基线模型,作者使用默认的参数设置,就像他们最初的论文或实现一样。
对于使用预先训练好的词嵌入的基线模型,我们使用300维的GloVe词嵌入。 -
效果对比
可以看出Text GCN的性能最好,明显优于其他方法,而在短文本数据集MR上,CNN也获得了最好的效果,这表明它可以做到对连续和短距离语义进行良好的建模
作者认为文本GCN之所以能很好地工作,主要有两个原因:
- 文本图能够同时捕捉文档——词之间的关系,全局的词——词关系。
- GCN模型作为拉普拉斯平滑的一种特殊形式,可以计算一个节点的新特征作为其自身及其二阶邻居的加权平均值。文档节点的标签信息可以传递给相邻的词节点(文档中的词),然后传递给与第一步相邻的词节点相邻的其他词节点和文档节点。Word 节点可以收集全面的文档标签信息,充当图中的桥梁或关键路径,使标签信息可以传播到整个图。
同时可以观察到,文本GCN在MR并没有优于基于CNN和LSTM的模型。作者认为有二:
- 因为GCN忽略了在情绪分类中非常有用的词序,而CNN和LSTM明确地对连续的次序进行了建模。
- MR文本图的边数比其他文本图的变数少,限制了节点之间的信息传递。因为文档非常短,所以只有很少的文档——字边。由于滑动窗口的数量较少,字——字边的数量也受到限制。然而,CNN和LSTM依赖于来自外部语料库的预先训练好的词嵌入,而文本GCN只使用目标输入语料库中的信息。
接下来,作者对参数敏感性进行了测试。
由上图可以看出,随着窗口大小的增大,测试精度先增大,但当窗口大小大于15时,平均精度停止增大。这说明太小的窗口大小不能生成足够的全局词共现信息,而太大的窗口大小可能会在不是有密切关系的节点之间添加边。
由上图可看出R8和MR上的分类性能,它们具有不同的第一层嵌入尺寸。过低的维度嵌入可能不能很好地将标签信息传播到整个图,而高纬度嵌入则不能提高分类性能,而且可能会花费更多的训练时间。
然后,作者研究了标记数据大小的影响
由上图可看出GCN可以在较低的标签率下表现得很好,这再次表明GCN可以将文档标记信息在整个图中很好地传播,同时,我们的字——文档图也保存了全局的字共现信息。
最后,作者给出了文本GCN支持的文档嵌入的可视化演示。
可以观察到,文本GCN可以学习到更多有区别的文档嵌入,而第二层的嵌入比第一层的可区分性更强。
可以观察到,具有相同标签的单词彼此之间很接近,这意味着大多数单词与某些特定的文档类关系密切。
总结来说,文本GCN可以实现较强的文本分类结果,并且可以学习预测性文档和词嵌入。然而,本研究的一个主要局限是,GCN模型具有固有的转导性,其中测试文档节点(没有标签)包含在GCN训练中。因此,GCN不能快速生成嵌入并预测不可见的测试文档。
结论与未来工作
本研究中,我们提出了一种新的文本分类方法,称为文本卷积网络。(text Graph Convolutional Networks,text GCN)。针对整个语料库建立了异构的Word文档图,将文档分类问题转换为节点分类问题。文本GCN可以捕获全局词的共现信息,并可以很好地利用有限的标记文档。 一个简单的两层文本GCN在多个基准数据集上胜过许多最先进的方法,展现了有前途的结果。
一些有趣的方向包括改善分类性能使用注意力机制和发展中的无监督GCN框架,用于大规模无标记的文本数据的表示学习。