论文网址:https://arxiv.org/abs/1809.05679
介绍
关于文本分类,我们之前学了CNN。CNN会优先考虑文本的顺序信息和局部信息,能够很好的捕获连续词序列中的语义和语法信息,但是它忽略了全局的词共现,词共现中携带了不连续以及长距离的语义信息。作者提出了一种新颖的图神经网络文本分类方法。将整个语料库建模为异构图并通过图神经网络共同学习单词和文档嵌入的研究。作者的方法无需使用预训练的单词嵌入或外部知识。 还可以自动学习预测词和文档嵌入。
文中提出了一种新的基于图卷积网络的文本分类方法。从包含单词和文档作为节点的整个语料库中构造一个大型图。使用图卷积网络GCN(Graph Convolutional Network)对图建模,可以捕获高阶邻域信息。利用单词共现信息建立两个单词结点之间的边界,利用单词频率建立单词结点和文档节点之间的边界,然后将文本分类问题转化为节点分类问题。
图卷积网络(GCN)
1、先把图构建了吧
1.1 结点
图里包含了两种节点,分别是document结点和word结点。
1.2 边
边也是包含两种:document-word 和 word-word
document-word
这个边的权重就是用TF-IDF,这个的计算方法之前有学过了。(tf-idf值越大,说明这个word对这篇doc越重要。)
word-word
文章用了一种叫PMI的方法来计算。简单来说,就是在一定的范围内两个词共现的频率越大&