Text GCN

本文介绍了Text GCN,一种用于文本分类的图神经网络方法,它通过构建异构图并利用图卷积网络捕获高阶邻域信息。在单词和文档节点构成的图中,使用TF-IDF和PMI计算边的权重。通过两层GCN传递信息,并应用ReLU和softmax函数进行节点表示和分类。尽管在某些数据集上表现优秀,Text GCN的缺点在于无法快速预测未见过的文档。
摘要由CSDN通过智能技术生成

论文网址:https://arxiv.org/abs/1809.05679

介绍

关于文本分类,我们之前学了CNN。CNN会优先考虑文本的顺序信息和局部信息,能够很好的捕获连续词序列中的语义和语法信息,但是它忽略了全局的词共现,词共现中携带了不连续以及长距离的语义信息。作者提出了一种新颖的图神经网络文本分类方法。将整个语料库建模为异构图并通过图神经网络共同学习单词和文档嵌入的研究。作者的方法无需使用预训练的单词嵌入或外部知识。 还可以自动学习预测词和文档嵌入。

文中提出了一种新的基于图卷积网络的文本分类方法。从包含单词和文档作为节点的整个语料库中构造一个大型图。使用图卷积网络GCN(Graph Convolutional Network)对图建模,可以捕获高阶邻域信息。利用单词共现信息建立两个单词结点之间的边界,利用单词频率建立单词结点和文档节点之间的边界,然后将文本分类问题转化为节点分类问题。

图卷积网络(GCN)

1、先把图构建了吧

1.1 结点
图里包含了两种节点,分别是document结点和word结点。

1.2 边
边也是包含两种:document-word 和 word-word
document-word
这个边的权重就是用TF-IDF,这个的计算方法之前有学过了。(tf-idf值越大,说明这个word对这篇doc越重要。)
word-word
文章用了一种叫PMI的方法来计算。简单来说,就是在一定的范围内两个词共现的频率越大&

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值